吳功才/杭州職業(yè)技術(shù)學(xué)院信息工程學(xué)院
關(guān)鍵字:檔案管理;數(shù)字化;區(qū)塊鏈;數(shù)據(jù)安全
據(jù)教育部官網(wǎng)2019年教育統(tǒng)計(jì)數(shù)據(jù)顯示,全國(guó)共有普通高等院校2688所,初高中學(xué)校7.7萬所,小學(xué)16.6萬所,共計(jì)在校生人數(shù)為2.428億人[1]。檔案是學(xué)生學(xué)籍和成績(jī)的證明,學(xué)生一人一檔,檔案數(shù)量巨大,數(shù)據(jù)安全性要求高。2017年,國(guó)家檔案局正式將“區(qū)塊鏈技術(shù)在電子檔案管理中的應(yīng)用”列入科技項(xiàng)目選題指南[2]。2019年10月24日,習(xí)近平總書記在中央政治局第十八次集體學(xué)習(xí)時(shí)強(qiáng)調(diào),“要把區(qū)塊鏈作為核心技術(shù)自主創(chuàng)新重要突破口,加快推動(dòng)區(qū)塊鏈技術(shù)和產(chǎn)業(yè)創(chuàng)新發(fā)展”[3]。近年來,如何有效的將區(qū)塊鏈技術(shù)融入到檔案管理工作中去成為了研究熱點(diǎn)。本文研究的就是如何使用當(dāng)前大熱的區(qū)塊鏈技術(shù)來安全、快速、有效的管理學(xué)生信息檔案。
最初,學(xué)生的檔案都是使用紙質(zhì)來記錄和保存的,紙質(zhì)檔案具有管理效率低下、不易保存、不易調(diào)轉(zhuǎn)的缺點(diǎn)。從20世紀(jì)90年代開始,美國(guó)最早開始了對(duì)檔案館的數(shù)字化研究[4]。20世紀(jì)90年代末,我國(guó)國(guó)家檔案局提出了建設(shè)數(shù)字檔案館的設(shè)想,致力于將紙質(zhì)檔案、音頻、視頻等材料數(shù)字化,實(shí)現(xiàn)檔案的快速查詢,永久存儲(chǔ)和數(shù)據(jù)共享[5]。學(xué)生檔案的數(shù)字化便于存儲(chǔ)照片、音頻、視頻等多媒體檔案,也便于檔案管理信息系統(tǒng)的開發(fā)、應(yīng)用以及檔案數(shù)據(jù)在互聯(lián)網(wǎng)的在線預(yù)覽、調(diào)轉(zhuǎn)和分享,極大的提高了學(xué)生檔案管理工作的效率。
但是,數(shù)字化檔案數(shù)據(jù)容易被不留痕的篡改,給不法分子或者心術(shù)不正的檔案管理工作人員留有較大的作案空間。重慶某職業(yè)學(xué)院原某領(lǐng)導(dǎo)借向主管單位移送個(gè)人檔案之機(jī),篡改、偽造個(gè)人檔案資料32處。數(shù)字化檔案數(shù)據(jù)容易受到的網(wǎng)絡(luò)黑客的竊取,而且網(wǎng)絡(luò)黑客可能來之世界各地,令人防不勝防。檔案數(shù)據(jù)聚集的數(shù)字化檔案管理中心一旦遇到系統(tǒng)、存儲(chǔ)介質(zhì)等軟硬件的故障或者電力供應(yīng)故障,可能會(huì)造成難以預(yù)料的檔案數(shù)據(jù)丟失、破損。傳統(tǒng)的檔案認(rèn)證方式繁瑣導(dǎo)致用戶體驗(yàn)度極差,檔案信息過度分享,導(dǎo)致隱私泄露問題嚴(yán)重[6]。數(shù)字化檔案諸多的缺陷,都給區(qū)塊鏈技術(shù)在檔案管理中的應(yīng)用提供了巨大研究動(dòng)力和應(yīng)用空間。
區(qū)塊鏈?zhǔn)且环N利用鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)來識(shí)別、傳播和記載數(shù)據(jù)信息,利用分布式結(jié)點(diǎn)共識(shí)機(jī)制來更新數(shù)據(jù)的一種對(duì)等網(wǎng)絡(luò)基礎(chǔ)架構(gòu)。區(qū)塊鏈網(wǎng)絡(luò)融合了分布式數(shù)據(jù)存儲(chǔ)、非對(duì)稱加密技術(shù)、共識(shí)算法、智能合約等多項(xiàng)技術(shù),實(shí)現(xiàn)了去中心化管理、數(shù)據(jù)不可篡改、數(shù)據(jù)變更必留痕、數(shù)據(jù)必唯一等特性。
相較于其他的數(shù)據(jù)信息,學(xué)生檔案數(shù)據(jù)特征明顯:學(xué)生檔案數(shù)據(jù)量龐大、檔案數(shù)據(jù)變更頻繁、檔案調(diào)轉(zhuǎn)頻繁、不能隨意篡改、檔案數(shù)據(jù)的保密性要求高。下面對(duì)學(xué)生檔案管理的需求、常規(guī)檔案管理系統(tǒng)(MIS)技術(shù)性能及區(qū)塊鏈技術(shù)性能從多個(gè)角度做一個(gè)對(duì)比,具體如表1。
表1:區(qū)塊鏈技術(shù)適用性分析表
傳統(tǒng)的常規(guī)檔案管理信息系統(tǒng)(MIS)重在檔案信息的存儲(chǔ)、查詢、業(yè)務(wù)管理等基本功能,而對(duì)檔案數(shù)據(jù)的篡改可追溯性、數(shù)據(jù)的保密性、檔案調(diào)轉(zhuǎn)的安全性和保密性等就顯得無能為力。從上表可以看出,區(qū)塊鏈技術(shù)可以滿足學(xué)生檔案數(shù)據(jù)管理的大容量、分布式存儲(chǔ)、變更可追溯、冗余性好、數(shù)據(jù)完整性、唯一性和保密性等多方面的需求,是一種匹配度極高的技術(shù)解決方案。區(qū)塊鏈數(shù)據(jù)雖然說是不能篡改的,但是可以通過添加新區(qū)塊來達(dá)到更改數(shù)據(jù)的效果。區(qū)塊鏈可以通過本文后續(xù)提到的零知識(shí)證明、安全多方計(jì)算等方式來確保區(qū)塊數(shù)據(jù)的保密性。2018 年R3 和CryptoBLK 共建聯(lián)盟鏈Voltron 項(xiàng)目,將原本紙質(zhì)信用文檔的信用驗(yàn)證程序從5—10 天減少到不到24 小時(shí)。相信區(qū)塊鏈技術(shù)在學(xué)生數(shù)字化檔案管理的應(yīng)用也將極大的提升學(xué)生檔案的管理效率。
第一,數(shù)字簽名技術(shù)確?!澳愕臋n案能夠安全的調(diào)轉(zhuǎn)到目的地”?;趨^(qū)塊鏈技術(shù)的檔案管理平臺(tái)對(duì)學(xué)生檔案進(jìn)行調(diào)轉(zhuǎn)等操作時(shí),會(huì)對(duì)檔案數(shù)據(jù)進(jìn)行數(shù)字簽名,數(shù)字簽名技術(shù)能夠保證待調(diào)轉(zhuǎn)的檔案數(shù)據(jù)的保密性和完整性。數(shù)字簽名技術(shù)主要應(yīng)用了哈希算法和非對(duì)稱加密算法。哈希算法可以將任意長(zhǎng)度的源消息壓縮到某一固定長(zhǎng)度的消息摘要。哈希算法具有輸入敏感性(如果輸入的源信息被輕微修改,輸出的消息摘要就會(huì)有很明顯的變化)和不可逆性(給定任意的消息摘要,在有限時(shí)間內(nèi)很難逆推出源消息)。非對(duì)稱加密算法使用了公鑰和私鑰兩個(gè)不同的密碼,顧名為“非對(duì)稱”,用私鑰加密的數(shù)據(jù)可以用公鑰解密,反之亦然。私鑰須由擁有者私密保存,而公鑰則可以對(duì)外公開。假如:中學(xué)A 要將一份學(xué)生檔案調(diào)轉(zhuǎn)到大學(xué)B,首先對(duì)學(xué)生檔案(DOC)進(jìn)行哈希運(yùn)算生成信息摘要(IA),之后大學(xué)B 通過查看IA有否更改就可以驗(yàn)證DOC 的數(shù)據(jù)是否完整;通過使用大學(xué)B 的公鑰對(duì)學(xué)生檔案(DOC)和加密摘要(PIA)進(jìn)行加密,保證檔案數(shù)據(jù)的完整性和保密性,具體流程如圖1。
圖1:數(shù)字簽名及檔案安全調(diào)轉(zhuǎn)流程圖
第二,哈希算法+時(shí)間戳驗(yàn)證“你的檔案是正版的”。哈希算法是密碼學(xué)里的一個(gè)重要算法,也是區(qū)塊鏈的核心技術(shù)。形象的說,哈希算法可以將學(xué)生的檔案數(shù)據(jù)裝在一個(gè)盒里,然后在貼上一個(gè)封條,這樣一旦有人打開盒子修改數(shù)據(jù)了馬上就會(huì)被發(fā)現(xiàn),從而保證了檔案數(shù)據(jù)的完整性,即“這個(gè)檔案數(shù)據(jù)就是原來的數(shù)據(jù)!”。區(qū)塊鏈中的每個(gè)區(qū)塊一經(jīng)創(chuàng)建都會(huì)被加上一個(gè)時(shí)間戳,并和區(qū)塊數(shù)據(jù)一起作哈希運(yùn)算(保證時(shí)間戳不被修改),從而申明一個(gè)事實(shí)“我是最原始正版檔案,我不是復(fù)制品!”。哈希算法+時(shí)間戳完美確保了學(xué)生檔案數(shù)據(jù)的原始性和唯一性。
第三,智能合約制定“檔案的操作規(guī)范”。在中心化的檔案信息管理系統(tǒng)(MIS)中,數(shù)據(jù)操作的安全性、完整性和保密性在很大程度上取決于檔案管理員的職業(yè)水準(zhǔn)和職業(yè)操守。一旦檔案管理員出于某種目的誤操作、泄露了檔案數(shù)據(jù)將會(huì)造成難易預(yù)計(jì)的損失。智能合約就是為了避免在區(qū)塊鏈中出現(xiàn)上述情形而設(shè)計(jì)的。智能合約是可以在區(qū)塊鏈上自動(dòng)執(zhí)行的特殊程序,其特點(diǎn)是程序代碼以及數(shù)據(jù)均存儲(chǔ)于鏈上,因此擁有防篡改性強(qiáng)、去中心化程度高等特點(diǎn)[7]。智能合約可以是一個(gè)區(qū)塊檔案數(shù)據(jù)讀取操作的約定、一個(gè)用戶權(quán)限等級(jí)驗(yàn)證的約定、一個(gè)檔案調(diào)轉(zhuǎn)操作的約定等。總之,對(duì)區(qū)塊檔案數(shù)據(jù)的規(guī)范操作都可以在區(qū)塊鏈設(shè)計(jì)之初事先定義成智能合約,而智能合約之外的操作請(qǐng)求是不會(huì)得到許可的,智能合約準(zhǔn)確、嚴(yán)格的規(guī)范了檔案數(shù)據(jù)的操作流程。
第四,分布式賬本+共識(shí)算法避免“管理員說了算”的中心化操作風(fēng)險(xiǎn)。在學(xué)生檔案區(qū)塊網(wǎng)絡(luò)中,區(qū)塊鏈分布式賬本的內(nèi)容即為學(xué)生的檔案數(shù)據(jù)。分布賬本技術(shù)就是將區(qū)塊數(shù)據(jù)復(fù)制出多個(gè)副本,并分發(fā)到網(wǎng)絡(luò)的不同節(jié)點(diǎn)中存儲(chǔ),這樣一個(gè)副本的數(shù)據(jù)被篡改了可以快速的被檢測(cè)發(fā)現(xiàn)。共識(shí)算法是區(qū)塊鏈中的一種防止分布式服務(wù)資源被濫用、拒絕服務(wù)攻擊的機(jī)制。區(qū)塊鏈通過共識(shí)算法(而不是指定某個(gè)節(jié)點(diǎn)、某個(gè)管理員賬號(hào))來確定某次操作(例如:生成新檔案數(shù)據(jù)區(qū)塊的操作或檔案數(shù)據(jù)調(diào)轉(zhuǎn)操作,其實(shí)就是一個(gè)智能合約的操作)具體由哪一個(gè)節(jié)點(diǎn)實(shí)施,并且可以斷定某個(gè)節(jié)點(diǎn)是否是實(shí)施了惡意操作的節(jié)點(diǎn),從而較好的防范了中心節(jié)點(diǎn)的惡意操作!分布式賬本+共識(shí)算法很好的杜絕了類似于中心數(shù)據(jù)庫檔案數(shù)據(jù)易被惡意篡改、管理員操作權(quán)限過大等“管理員說了算”現(xiàn)象的發(fā)生。
區(qū)塊鏈系統(tǒng)根據(jù)應(yīng)用場(chǎng)景和用戶需求的不同,技術(shù)應(yīng)用的類型一般分為公有鏈、聯(lián)盟鏈、私有鏈[8]。聯(lián)盟鏈?zhǔn)窃诠?jié)點(diǎn)規(guī)模、交易速度、中心化程度介于公有鏈和私有鏈之間的一種區(qū)塊鏈形式。聯(lián)盟鏈?zhǔn)菄?guó)內(nèi)采取較多的一種形式,其建立通常是為了服務(wù)某一特定領(lǐng)域或達(dá)成某一特定目的[9]。本文建議采用聯(lián)盟鏈的方式組建學(xué)生檔案區(qū)塊鏈網(wǎng)絡(luò),具體的區(qū)塊網(wǎng)絡(luò)架構(gòu)下圖2。聯(lián)盟鏈中的每個(gè)節(jié)點(diǎn)就是不同院校的區(qū)塊網(wǎng)絡(luò)專用服務(wù)器(Block-chain Server,簡(jiǎn)稱BCS)。學(xué)校原先的檔案信息管理系統(tǒng)(MIS 系統(tǒng))服務(wù)器提供檔案信息的采集、審核服務(wù),同時(shí)也作為區(qū)塊網(wǎng)絡(luò)的代理服務(wù)器(Block-chain Proxy Server,簡(jiǎn)稱BCPS)。BCPS 可以通過向BCS 提交“檔案操作智能合約”,實(shí)現(xiàn)對(duì)區(qū)塊網(wǎng)絡(luò)中檔案數(shù)據(jù)的規(guī)范操作。
圖2:學(xué)生檔案區(qū)塊網(wǎng)絡(luò)的架構(gòu)圖
區(qū)塊網(wǎng)絡(luò)的學(xué)生檔案數(shù)據(jù)安全主要體現(xiàn)在檔案數(shù)據(jù)的完整性、唯一性、保密性三個(gè)方面。區(qū)塊鏈最原始的設(shè)計(jì)是確保數(shù)據(jù)的完整性和唯一性,其哈希算法和時(shí)間戳技術(shù)對(duì)數(shù)據(jù)提供了很好的完整性 和唯一性保護(hù),但并沒有在數(shù)據(jù)的保密性方面有太多的考慮。學(xué)生檔案區(qū)塊網(wǎng)絡(luò)的數(shù)據(jù)在檔案調(diào)轉(zhuǎn)操作過程中是受到非對(duì)稱加密算法的保密性保護(hù)的,但是區(qū)塊網(wǎng)絡(luò)的數(shù)據(jù)通常是在非加密的狀態(tài)下被分布式存儲(chǔ)的,所以具有一定的數(shù)據(jù)保密性安全隱患。當(dāng)然我們可以通過增加對(duì)稱或非對(duì)稱密碼算法對(duì)鏈上數(shù)據(jù)進(jìn)行加密實(shí)現(xiàn)數(shù)據(jù)的加密存儲(chǔ),但是加密后的區(qū)塊數(shù)據(jù)也對(duì)后續(xù)數(shù)據(jù)交易或操作中的共識(shí)算法和智能合約的實(shí)施造成一定的障礙,這也是阻礙區(qū)塊鏈技術(shù)在檔案數(shù)據(jù)、征信數(shù)據(jù)等私密數(shù)據(jù)應(yīng)用領(lǐng)域廣泛應(yīng)用的重要因素。
所幸的是,目前出現(xiàn)了一些新的、可行的區(qū)塊數(shù)據(jù)保密方式:零知識(shí)證明、環(huán)簽名、安全多方計(jì)算和同態(tài)加密。零知識(shí)證明能夠在不向驗(yàn)證者提供任何有用的信息的情況下,使驗(yàn)證者相信某個(gè)論斷是正確的。環(huán)簽名可以在隱藏交易發(fā)送人的前提下,實(shí)現(xiàn)區(qū)塊鏈上的數(shù)據(jù)交易。零知識(shí)證明和環(huán)簽名可以在確保學(xué)生檔案數(shù)據(jù)所有權(quán)信息私密性的前提下,實(shí)現(xiàn)共識(shí)算法的安全實(shí)施。安全多方計(jì)算是解決一組互不信任的參與方之間保護(hù)隱私的協(xié)同計(jì)算問題的良好途徑。采用安全多方計(jì)算技術(shù)來設(shè)計(jì)和實(shí)現(xiàn)智能合約的安全執(zhí)行被認(rèn)為是最具潛力的解決方案之一[10]。同態(tài)加密提供了一種對(duì)加密數(shù)據(jù)進(jìn)行處理的功能。安全多方計(jì)算和同態(tài)加密可以在保證學(xué)生檔案數(shù)據(jù)私密性的前提下,安全的實(shí)施智能合約的相關(guān)操作。