彭柳,張淼,高杰欣
(1中南民族大學 檔案館,武漢 430074;2中南民族大學 現(xiàn)代教育技術中心,武漢 430074)
隨著信息化的發(fā)展,對檔案管理提出了新要求,信息化、電子化產(chǎn)生了大量的電子化業(yè)務數(shù)據(jù),其產(chǎn)生、流轉、存儲全部都是采用電子化的形式,這些電子化的文件歸檔后形成了海量電子檔案.電子檔案與傳統(tǒng)檔案的管理相比較,有立檔標準規(guī)范、歸檔流程簡單、存儲成本低廉以及檢索利用方便快捷等優(yōu)點,可以提高檔案工作人員的工作效率和檔案的利用率[1].
不同于傳統(tǒng)紙質檔案與生俱來的唯一性和較強的防篡改性,電子檔案存儲在中心化數(shù)據(jù)庫中,面臨著更多網(wǎng)絡攻擊的風險,更加易于被內部管理人員或外部攻擊者進行偽造和篡改[2].因此,維護電子檔案的安全對于檔案管理的安全保護技術提出了新的要求,需要改變現(xiàn)有的管理技術和模式.
目前檔案界對區(qū)塊鏈技術進行理論探索的主要是美國和加拿大等西方學者或高校檔案工作者.根據(jù)國外綜述類文獻報道,電子檔案管理嘗試性應用了區(qū)塊鏈技術.如2017年12月,韓國9所醫(yī)院與Aston公司簽署重要的合約,用區(qū)塊鏈管理18萬病人的病歷檔案,此項工作,至少每月對650萬頁的病例檔案進行管理[3].2018年英國國家檔案館(TNA)與薩里大學、開放數(shù)據(jù)研究所合作,開展基于區(qū)塊鏈的研究項目ARCHANGEL,嘗試性應用了區(qū)塊鏈技術[4].基本方案是由ARCHANGEL系統(tǒng)在接收登記數(shù)字檔案時,先利用格式識別軟件DRIOD自動識別出檔案文件的格式,再采取與格式匹配的特定加密算法,生成哈希值,登記到區(qū)塊鏈的分布式賬本上[5-6].
從國內公開的文獻來看,電子檔案管理業(yè)務應用區(qū)塊鏈方面,已經(jīng)有少量機構進行了初步探索.如中國石油化工集團有限公司于2019年開始嘗試通過區(qū)塊鏈確保電子檔案的真實性[7].中國科學院合肥物質科學研究所檔案館及下屬多個研究所的檔案部門通過應用區(qū)塊鏈實現(xiàn)檔案共享利用.北京互聯(lián)網(wǎng)法院為了保障電子證據(jù)的真實性,聯(lián)合了北京市高等法院、公證處、大型互聯(lián)網(wǎng)平臺和司法鑒定中心等20余家單位共同組建了聯(lián)盟鏈,取名“天平鏈”[8].
綜合來看,區(qū)塊鏈是一項全新技術,大多數(shù)檔案部門由于當前存儲方式不清,對電子檔案管理中應用區(qū)塊鏈的成本、實施路徑等缺乏了解,從而在應用區(qū)塊鏈方面無從下手,區(qū)塊鏈實際在電子檔案管理中的應用仍舊較少.從研究方面來看,大多數(shù)文獻主要是關于區(qū)塊鏈在電子檔案管理中的應用場景、所能實現(xiàn)的功能、適用性等方面,對技術細節(jié)、所需投入、實現(xiàn)路徑等的研究較少[9].區(qū)塊鏈作為最前沿的信息管理技術,在國內外檔案界,區(qū)塊鏈檔案管理的應用,仍處于嘗試和探索階段.
為了進一步探索區(qū)塊鏈技術在電子檔案管理的實際應用,中南民族大學于2019年申請了國家檔案局科技項目《區(qū)塊鏈技術在電子檔案管理中的應用》(項目編號為2019-X-47),探索研究區(qū)塊鏈技術在電子文件歸檔和電子檔案管理中的實現(xiàn)方案.本文將以該項目為基礎,研究高校的學籍電子檔案管理,提出了一種基于區(qū)塊鏈技術實現(xiàn)電子檔案的安全存儲與可信驗證技術方案,旨在解決電子檔案管理中普遍存在的數(shù)據(jù)真實性、完整性、可靠性和可用性問題.
區(qū)塊鏈是在2008年,由網(wǎng)名為中本聰?shù)某绦騿T提出的作為點對點網(wǎng)絡、密碼學、共識機制、智能合約等多種技術集成的一個概念[10].區(qū)塊鏈(Blockchain)是由節(jié)點參與的分布式數(shù)據(jù)庫系統(tǒng),是基于時間戳由區(qū)塊有序鏈接起來形成的一種數(shù)據(jù)結構,其中區(qū)塊是指數(shù)據(jù)的集合,相關信息和記錄都包括在區(qū)塊里面,是形成區(qū)塊鏈的基本單元.區(qū)塊鏈技術經(jīng)過快速的迭代演進,如今的區(qū)塊鏈已經(jīng)形成“分布式(Decentralized)、免信任(Trustless)、時 間戳(Time Stamp)、非對稱加密(Asymmetric Cryptography)和智能合約(Smart Contract)”五大技術特征,對應的特點為分散式存儲、不可篡改性、可追溯性、安全性、可編程性.研究者一般根據(jù)區(qū)塊鏈的使用范圍把其分為三類:公有區(qū)塊鏈(簡稱公有鏈)、私有區(qū)塊鏈(簡稱私有鏈)和行業(yè)區(qū)塊鏈(簡稱聯(lián)盟鏈)[11].
公有鏈:世界上任何個體或者團體都可以發(fā)送交易,且交易能夠獲得該區(qū)塊鏈的有效確認,任何人都可以參與其共識過程.
私有鏈:僅僅使用區(qū)塊鏈的總賬技術進行記賬,可以是一個單位,也可以是個人,獨享該區(qū)塊鏈的寫入權限,該鏈與其他的分布式存儲方案沒有太大區(qū)別.
聯(lián)盟鏈:由某個群體內部指定多個預選的節(jié)點為記賬人,每個塊的生成由所有的預選節(jié)點共同決定(預選節(jié)點參與共識過程),其他接入節(jié)點可以參與交易,但不過問記賬過程(本質上還是托管記賬,只是變成分布式記賬,預選節(jié)點的多少,如何決定每個塊的記賬者成為該區(qū)塊鏈的主要風險點),其他任何人可以通過該區(qū)塊鏈開放的平臺進行限定查詢.
三類區(qū)塊鏈的主要區(qū)別是公有鏈對所有參與者開放,私有鏈僅對單獨的個人或者組織內部開放,聯(lián)盟鏈則對特定的組織團體開放[12].
項目組研究員通過利用區(qū)塊鏈技術在電子文件管理中的實驗發(fā)現(xiàn),區(qū)塊鏈通過鏈式數(shù)據(jù)結構、數(shù)字簽名和時間戳等技術來保證存儲在鏈上的文件內容不被更改,因此在保護電子檔案的真實性、完整性和可靠性方面具有優(yōu)勢.區(qū)塊鏈技術可以解決普通網(wǎng)絡上電子文件信息來源不可靠、信息不對稱、信息存儲中心化、需要異地多介質備份等檔案信息管理面臨的問題.
利用區(qū)塊鏈保存數(shù)據(jù)不僅可以避免被篡改,信息價值唯一,還無需對人的信任與戒備.同時分布式無門檻技術特點,帶來人員參與容易,參與成本低廉,且信息傳播時效性強等特點[13].以區(qū)塊鏈打造檔案管理系統(tǒng),不僅能大幅提高檔案系統(tǒng)內的高度融合,便捷檔案挖掘利用,更能使檔案和其他領域職能協(xié)調管理.
依據(jù)《中華人民共和國檔案法》《中華人民共和國電子簽名法》《中華人民共和國密碼法》和《電子檔案管理辦法》等法律法規(guī),項目組構思出一種聯(lián)盟鏈和私有鏈結合的電子檔案安全儲存保護方案,聯(lián)盟鏈用于存取私有鏈區(qū)塊摘要信息,來實現(xiàn)對私有鏈上數(shù)據(jù)的保護與驗證;私有鏈用于存取電子檔案的摘要信息,來實現(xiàn)對電子檔案的保護與驗證.
該方案將高校學生錄取名冊、學歷學位證書、畢業(yè)成績單等重要電子檔案同時存儲在私有鏈的多個節(jié)點上,僅提取電子檔案的哈希值和檢索該文件必需的元數(shù)據(jù)信息打包成分布式賬本并按照時間順序依次相連,以數(shù)字簽名的方式保證數(shù)據(jù)不可篡改,從而形成SCUEC區(qū)塊鏈.當用戶需要對成績單等電子檔案進行驗證時,只需要在SCUEC區(qū)塊鏈查詢接口平臺上導入電子文件或者其哈希值,接口程序將在后臺提取區(qū)塊鏈中的數(shù)據(jù)進行對比,若不一致則反饋該文件已被篡改,如果一致則即可證明此電子檔案真實可靠.
SCUEC區(qū)塊鏈不僅可以提供電子檔案的存儲和驗證服務,還可以為單位各業(yè)務系統(tǒng)提供標準服務,各種類型的電子文件在其生命周期的不同階段都可以利用區(qū)塊鏈進行存儲和驗證保護.當業(yè)務系統(tǒng)涉及到重要操作時,對各項重要操作產(chǎn)生的數(shù)據(jù),都可通過區(qū)塊鏈提供審計依據(jù).
SCUEC區(qū)塊鏈的數(shù)據(jù)存儲采取分布式,隨機存儲機制,部署在多節(jié)點服務器組內,連接在負載均衡設備上.各節(jié)點的客戶端通過校園局域網(wǎng)與服務器相連,離開校園網(wǎng)的終端可通過VPN或專用光纖系統(tǒng)與安全管理系統(tǒng)服務器相連,經(jīng)過智能DNS,找出最優(yōu)訪問鏈路,提高訪問效率、降低多地間網(wǎng)絡開銷.
SCUEC區(qū)塊鏈是基于時間戳將區(qū)塊有序鏈接起來形成的一種數(shù)據(jù)結構.如果僅在一個單位內部建立則屬于該單位的私有鏈,如中南民族大學SCUEC區(qū)塊鏈是由學校信息中心、檔案管理服務器、教務管理服務器、財務管理服務器等多個節(jié)點參與形成的分布式數(shù)據(jù)庫系統(tǒng)(圖1).
圖1 SCUEC區(qū)塊鏈管理平臺首頁Fig.1 The home page of the SCUEC blockchain management platform
若有多家單位按相同的數(shù)據(jù)存儲規(guī)則建立私有鏈,根據(jù)一定的網(wǎng)絡架構,作為一個超級節(jié)點加入到SCUEC區(qū)塊鏈中,則可形成聯(lián)盟鏈(圖2).
圖2 SCUEC區(qū)塊鏈節(jié)點配置Fig.2 SCUEC blockchain node configuration
區(qū)塊是區(qū)塊鏈的基本單元,每個區(qū)塊均是一個數(shù)據(jù)的集合,相關電子文件的信息和記錄都包括在區(qū)塊里面(圖3~5).
圖3 SCUEC區(qū)塊鏈的區(qū)塊結構Fig.3 The block structure of the SCUEC blockchain
圖4 SCUEC區(qū)塊鏈的區(qū)塊信息Fig.4 Block information for SCUEC blockchain
圖5 SCUEC區(qū)塊鏈的區(qū)塊詳情Fig.5 Block details for SCUEC blockchain
區(qū)塊的形成采用可插拔的共識機制,支持PBFT、Raft和rPBFT共識算法,交易確認時延低、吞吐量高,并具有最終一致性.其中PBFT和rPBFT可解決拜占庭問題,安全性更高.區(qū)塊和存儲機制從原來的MPT存儲結構轉為分布式存儲,避免了鏈上數(shù)據(jù)急劇膨脹導致性能下降的問題;引入可插拔的存儲引擎,支持LevelDB、RocksDB、MySQL等多種后端存儲,支持數(shù)據(jù)簡便快速擴容的同時,將計算與數(shù)據(jù)隔離,降低了節(jié)點故障對節(jié)點數(shù)據(jù)的影響[14].
建立SCUEC區(qū)塊鏈單位內部的各業(yè)務系統(tǒng)將各類不同格式的電子文件換成OFD或者PDF標準版式文件,同時嵌入相關的元數(shù)據(jù),支持元數(shù)據(jù)的打包封裝及XML技術描述,并可以進行文件加密或電子簽名,形成安全可信的電子文件,在歸檔之前將此電子文件和摘要信息進行HASH運算.一定數(shù)據(jù)量的文件HASH值被打包后,加上時間戳和區(qū)塊頭信息,就可以成為一個區(qū)塊保存在各個節(jié)點的賬本中.上鏈后的電子文件便具有分散式存儲、不可篡改性和安全性,此電子文件原文歸檔到檔案管理系統(tǒng)中即為可信電子檔案(圖6).
圖6 SCUEC區(qū)塊鏈可信歸檔示意圖Fig.6 Trusted archive of SCUEC Blockchain
業(yè)務系統(tǒng)可以在電子文件生成和流轉的過程中,將電子文件的相關信息加密后上鏈.檔案管理系統(tǒng)再將每份電子檔案的歸檔元數(shù)據(jù)、鑒定記錄、組卷信息、借閱記錄、銷毀記錄等全部都進行數(shù)據(jù)打包,放在SCUEC區(qū)塊鏈中,此電子檔案的整個生命周期便均可溯源,任何階段的文件都可以方便地提供利用.
SCUEC區(qū)塊鏈除了為各類電子文件進行存儲保護,還有一項重要的功能便是提供接口服務讓用戶調用,進行數(shù)據(jù)查詢和比對.通過區(qū)塊鏈對檔案不同階段數(shù)據(jù)上鏈,以保護電子檔案的真實性,并在電子檔案借閱后進行真實性驗證.如學生在畢業(yè)時可以由學校頒發(fā)畢業(yè)證書的同時頒發(fā)電子成績單,當需要查驗此成績單有無被篡改時,驗證者可以在任何地點登陸此查驗平臺,掃描紙質成績單或者提交整個電子成績單,接口程序將通過后臺調用SCUEC區(qū)塊鏈相應區(qū)塊上的信息進行比對,若相同,則顯示此成績單為真,否則是被篡改后的成績單.
根據(jù)以上原則,項目組開發(fā)出了基于區(qū)塊鏈的檔案安全存儲與可信查驗平臺(簡稱BASV區(qū)塊鏈查驗平臺)(圖7).
圖7 電子檔案區(qū)塊鏈查驗平臺(BASV)Fig.7 Electronic archive blockchain inspection platform(BASV)
普通的中心化數(shù)據(jù)庫通常具有幾個無限訪問權限的管理員,這是一個幾乎無法堵住的安全漏洞.區(qū)塊鏈通過消除對管理員的權限來避免這種漏洞產(chǎn)生,可以通過以下方式提高安全性:區(qū)塊鏈里的每個管理員都有一個私有鏈的副本,要求所有管理員就某些操作達成共識,拒絕所有不遵守某些協(xié)議的行為,區(qū)塊鏈記錄下完整的安全日志.
區(qū)塊鏈因參與節(jié)點本身角色的限定性和私密性,可以有效地防止內容某個節(jié)點篡改數(shù)據(jù).一旦發(fā)生故意隱瞞或篡改數(shù)據(jù)的情況,能夠及時追蹤其來源.再加上私有鏈中的交易數(shù)據(jù)不會全網(wǎng)公開,可以更好地保護節(jié)點自身的隱私.區(qū)塊鏈提供所有存儲信息的完整歷史記錄,并通過密碼術對其進行保護.此功能有助于去中心化管理,通常在常規(guī)數(shù)據(jù)庫中不可用.
與傳統(tǒng)的僅依靠中心化管理的電子檔案管理系統(tǒng)相比較,大大降低了來自系統(tǒng)內部的成員篡改檔案的風險,讓保存的電子檔案數(shù)據(jù)更加安全可靠.
比較起采用第三方認證的可信驗證方式,區(qū)塊鏈的建設和使用成本幾乎可以忽略不計.僅僅利用各單位現(xiàn)有的計算機、服務器和網(wǎng)絡,便可以搭建起私有鏈和聯(lián)盟鏈.私有鏈是一條非公開的“鏈”,通常鏈上成員都是經(jīng)過審核授權的,所以惡意攻擊的可能性相對較小.具有速度快、隱私保障良好、安全性較高、使用成本低等特點.聯(lián)盟鏈是由多個組織或機構共同參與管理的區(qū)塊鏈,每個組織或機構管理一個或多個節(jié)點,其數(shù)據(jù)只允許節(jié)點進行讀寫和發(fā)送.聯(lián)盟鏈的各個節(jié)點通常是通過授權后才能加入網(wǎng)絡,各節(jié)點組成利益相關的聯(lián)盟,共同維護區(qū)塊鏈的健康運轉.從某種程度上來說,其實聯(lián)盟鏈也屬于私有鏈,但它私有的程度不同,其權限設計要求更復雜,可信度更高[15].
因此本技術方案采用私有鏈和聯(lián)盟鏈結合的方案節(jié)約了成本,保證了可延續(xù)性.
區(qū)塊鏈的不可篡改特性,正是通過密碼學技術進行數(shù)字簽名,可保障重要操作過程中數(shù)據(jù)的真實性、完整性,以及用戶操作行為的不可否認性,提供事后追蹤、審核手段,實現(xiàn)對關鍵操作的責任認定.國外制定的安全協(xié)議和加密算法,無法滿足關鍵系統(tǒng)、設備的安全、自主、可控,如目前共識最高的區(qū)塊鏈比特幣BTC和以太坊Ethereum均使用了美國設計的SHA256哈希算法和橢圓曲線簽名算法(ECDSA)來進行賬戶生成或數(shù)字簽名.
安全形勢不容樂觀,因此國家加大了力度投入研究國產(chǎn)密碼算法,目前已經(jīng)有一些國家密碼局認定的成熟產(chǎn)品,如SM1、SM2、SM3、SM4.SM2算法即SM2橢圓曲線公鑰密碼算法,是我國自主設計的公鑰密碼算法,包括SM2-1橢圓曲線數(shù)字簽名算法,SM2-2橢圓曲線密鑰交換協(xié)議,SM2-3橢圓曲線公鑰加密算法,分別用于實現(xiàn)SCUEC區(qū)塊鏈數(shù)字簽名和數(shù)據(jù)加密等功能.SM3算法也稱SM3雜湊算法,是我國自主設計的密碼雜湊算法,適用密碼應用中的數(shù)字簽名和驗證消息認證碼的生成與驗證以及隨機數(shù)的生成,用于實現(xiàn)SCUEC區(qū)塊鏈上具體區(qū)塊中的哈希算法[16].
檔案管理的核心工作是保障安全,采用國產(chǎn)加密算法是將安全控制牢固掌握在自己手中的根本原則.
區(qū)塊鏈技術仍處于十分早期的研究階段,決定了該技術有激烈的變化和高度發(fā)展的可能,其在可擴展性、共識機制、系統(tǒng)安全、監(jiān)管和隱私保護等方面都存在一定的瓶頸,這些關鍵技術問題還可能互相牽制,三元悖論一直是區(qū)塊鏈最大的障礙.因此區(qū)塊鏈應用于檔案管理的過程將不可避免地會走一些彎路,很可能會經(jīng)歷一個長期迭代過程,才能最終趨于完善.
此方案雖然是以高校電子檔案作為研究對象進行的研究與開發(fā),但其基本原理和應用場景并不僅限于高校內部的檔案管理,還可以擴展到其他行業(yè)組織實體的檔案管理,甚至是行業(yè)成員之間的檔案利用協(xié)調.
除了適用于電子檔案管理的場景之外,可以據(jù)此方案設計出私有鏈應用在一些金融企業(yè)、審計機構和商業(yè)公司中,用來存放核心、敏感數(shù)據(jù).同時也可以建立聯(lián)盟鏈,用于行業(yè)協(xié)會、大型集團、行政組織等對下屬單位和分管機構的管理和監(jiān)管等.