陳栩杉/國防大學(xué)政治學(xué)院
錄音錄像類電子檔案是指具有查考和利用價(jià)值并歸檔保存的錄音類電子文件和錄像類電子文件,是經(jīng)數(shù)字錄音設(shè)備和數(shù)字?jǐn)z像設(shè)備形成的依賴計(jì)算機(jī)等數(shù)字設(shè)備閱讀、視聽、處理,可在通信網(wǎng)絡(luò)上傳送的數(shù)字音頻文件和數(shù)字音視頻文件[1]。與文書類電子文件、照片類電子檔案相比,錄音錄像類電子檔案具有物理結(jié)構(gòu)復(fù)雜、管理要求特殊等特點(diǎn)[2],這對(duì)維護(hù)其真實(shí)、完整、可用、安全的管理目標(biāo)提出了更高的要求,如何確保錄音錄像類電子檔案的真實(shí)性和完整性更是成為促進(jìn)資源開發(fā)利用和長久保存工作有效實(shí)施的關(guān)鍵。
隨著區(qū)塊鏈應(yīng)用于電子檔案管理的理解不斷深入,檔案學(xué)界、機(jī)構(gòu)、企業(yè)圍繞應(yīng)用價(jià)值[3—8]、路徑模式[9—11]、模型系統(tǒng)[12—16]、行業(yè)實(shí)踐[17—20]等方面展開了理論研究和應(yīng)用實(shí)踐。從國內(nèi)研究現(xiàn)狀看,檔案行業(yè)對(duì)區(qū)塊鏈技術(shù)的認(rèn)識(shí)和理解從“爭(zhēng)先恐后”到“并不必然使用”,從應(yīng)用前景展望到模型架構(gòu)設(shè)計(jì)再到落地實(shí)踐探索,可謂是由淺入深、由點(diǎn)及面、初具形態(tài),但仍以典型項(xiàng)目、典型場(chǎng)景的試點(diǎn)為主,應(yīng)用對(duì)象類型主要面向文書類電子文件及其管理系統(tǒng),缺乏針對(duì)錄音錄像類電子檔案特點(diǎn)設(shè)計(jì)的、基于區(qū)塊鏈技術(shù)的管理模式、模型系統(tǒng)等研究,還沒有成熟的實(shí)驗(yàn)結(jié)果,存在眾多問題亟待探索和解決。
與此同時(shí),英國國家檔案館等機(jī)構(gòu)主導(dǎo)的ARCHANGEL項(xiàng)目借鑒聯(lián)盟鏈的技術(shù)框架,結(jié)合深度神經(jīng)網(wǎng)絡(luò)模型,開發(fā)出基于音視頻內(nèi)容的哈希算法,用于計(jì)算錄像類電子檔案的內(nèi)容哈希值,該值上鏈后可作為驗(yàn)證檔案完整性的重要依據(jù),在應(yīng)對(duì)錄像類電子檔案管理過程中可能出現(xiàn)的合理轉(zhuǎn)換(如格式轉(zhuǎn)換、遷移等)和非法篡改(如刪除音視頻幀、替換頭像等)均有較好效果。因此,本文在分析該項(xiàng)目針對(duì)錄像類電子檔案完整性驗(yàn)證的基本思路、技術(shù)架構(gòu)與流程的基礎(chǔ)上,論述了應(yīng)用區(qū)塊鏈技術(shù)實(shí)現(xiàn)我國錄音錄像類電子檔案存證的啟示與思考。
ARCHANGEL項(xiàng)目由英國國家檔案館、英國薩里大學(xué)、開放數(shù)據(jù)研究所等機(jī)構(gòu)聯(lián)合開發(fā),旨在建立一個(gè)確保電子檔案長期完整性的去中心化平臺(tái),用于在檔案管理和開放利用過程中驗(yàn)證電子檔案的來源可信性和內(nèi)容真實(shí)性,增強(qiáng)數(shù)字時(shí)代檔案機(jī)構(gòu)權(quán)威地位和用戶信任程度。需要注意的是,這里的“完整性”是指檔案內(nèi)容的真實(shí)性且未經(jīng)非授權(quán)的更改或破壞,包含檔案學(xué)領(lǐng)域中“真實(shí)性”和“完整性”的兩層含義。
項(xiàng)目的總體思路是基于區(qū)塊鏈技術(shù)建立一個(gè)分布式平臺(tái),由多個(gè)檔案機(jī)構(gòu)負(fù)責(zé)管理維護(hù)。
每個(gè)檔案機(jī)構(gòu)在檔案移交進(jìn)館時(shí),將原始檔案存證信息(即原始檔案哈希值)、檔案文件名或全局唯一標(biāo)識(shí)符(Global Unique Identifier,GUID)、標(biāo)識(shí)哈希算法的唯一標(biāo)識(shí)符(如SHA-256)、附加元數(shù)據(jù)(如檔案管理員的注釋、移交時(shí)間、版本信息等)、專用哈希算法代碼或模型的哈希值(可選)等寫入?yún)^(qū)塊鏈。上述信息組合構(gòu)成區(qū)塊鏈上的一個(gè)新區(qū)塊,加入鏈尾,并依托網(wǎng)絡(luò)對(duì)新區(qū)塊進(jìn)行一致性檢測(cè),形成共識(shí)。
用戶利用GUID或哈希值搜索、識(shí)別所需的區(qū)塊,通過計(jì)算所需利用檔案的哈希值,并與存儲(chǔ)在區(qū)塊中的原始存證信息進(jìn)行比較,從而驗(yàn)證該檔案的完整性。整個(gè)驗(yàn)證過程是獨(dú)立的、透明的、可重現(xiàn)的,任何人在任何時(shí)間都能完成。
1.2.1 基本思路
錄像類電子檔案與一般的文本類電子檔案相比,由于其物理結(jié)構(gòu)和管理要求具有特殊性,并不適合采用與文本類完全一致的處理方式,其原因主要有兩個(gè)方面。
一是錄像類電子檔案的文件存儲(chǔ)容量相較于一般文本類電子檔案要大得多,錄像類電子檔案的處理過程顯然需要消耗更多內(nèi)存,對(duì)計(jì)算機(jī)等設(shè)備的硬件要求較高,在相同硬件條件下運(yùn)算速度比一般文本類要慢得多。
二是出于保密和隱私保護(hù)等目的,錄像類電子檔案的原始內(nèi)容并不會(huì)上鏈,上鏈的只是原始檔案的哈希值,如果采用SHA-256等標(biāo)準(zhǔn)哈希算法,就會(huì)造成用戶利用檔案時(shí)計(jì)算的哈希值與鏈上的哈希值出現(xiàn)不一致的情況。比如,以O(shè)AIS模型描述的信息包括提交信息包(Submission Information Packages,SIPs)、檔案信息包(Archival Information Packages,AIPs)、傳播信息包(Dissemination Information Packages,DIPs)等。當(dāng)用戶利用時(shí),AIPs(看作是原始記錄)與DIPs有可能不一致,因?yàn)闄n案提供利用時(shí)通常會(huì)使用不同格式的副本(如為了降低文件下載容量,一個(gè)MXF格式的視頻檔案會(huì)轉(zhuǎn)換成MPG4格式)。同時(shí),由于原始檔案的文件格式面臨過時(shí)風(fēng)險(xiǎn),有可能需要遷移至新的格式。這些都會(huì)造成無法向用戶證明提供利用的檔案與館藏原始檔案一致。
因此,ARCHANGEL項(xiàng)目考慮定制開發(fā)一種新的哈希算法,該算法應(yīng)具備一個(gè)特性,即文件格式的轉(zhuǎn)換對(duì)最終的哈希值沒有影響,但對(duì)內(nèi)容的更改會(huì)產(chǎn)生截然不同的哈希值。這樣做,一是能給用戶提供正確的驗(yàn)證依據(jù),二是能防止檔案內(nèi)容的篡改,三是能幫助檔案管理人員確保檔案格式的轉(zhuǎn)換或遷移工作已成功完成,避免由于軟件原因?qū)е罗D(zhuǎn)換過程中部分內(nèi)容被截?cái)嗷騺G失。
1.2.2 技術(shù)架構(gòu)與流程
在驗(yàn)證錄像類電子檔案完整性的技術(shù)架構(gòu)中,項(xiàng)目采用了“鏈上+鏈下”混合的存儲(chǔ)策略。鏈上多個(gè)檔案機(jī)構(gòu)共同維護(hù)兩個(gè)哈希值,一是錄像類電子檔案內(nèi)容的哈希值,由定制開發(fā)的專用哈希算法生成;二是專用哈希算法代碼的哈希值,由SHA-256算法生成。鏈下各個(gè)檔案館分別存儲(chǔ)錄像類電子檔案的原始文件和各個(gè)視頻片段的檔案內(nèi)容編碼。鏈上和鏈下數(shù)據(jù)依賴唯一標(biāo)識(shí)符(Unique Identifiers,UID)進(jìn)行對(duì)應(yīng)關(guān)聯(lián)。
同時(shí),為了進(jìn)一步降低計(jì)算資源的消耗、提高區(qū)塊更新速率,項(xiàng)目采用了權(quán)威證明(Proof of Authority,PoA)的共識(shí)機(jī)制,利用檔案機(jī)構(gòu)的法律地位和聲譽(yù)建立起基于權(quán)威共識(shí)的驗(yàn)證機(jī)制,以犧牲部分去中心化來實(shí)現(xiàn)高吞吐量、可持續(xù)性和可擴(kuò)展性。授權(quán)節(jié)點(diǎn)的訪問密鑰是預(yù)先進(jìn)行分配和授權(quán)的,所有區(qū)塊是由授權(quán)節(jié)點(diǎn)通過多數(shù)共識(shí)定期封裝,新的節(jié)點(diǎn)通過現(xiàn)有授權(quán)節(jié)點(diǎn)的多數(shù)共識(shí)被授予訪問權(quán)。
在具體實(shí)現(xiàn)過程中,項(xiàng)目設(shè)計(jì)了一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,用于提取錄像類電子檔案中音視頻流的時(shí)序內(nèi)容哈希值(Temporal Content Hash,TCH)。該模型經(jīng)過訓(xùn)練后,即使視頻內(nèi)容中出現(xiàn)很小的幀損壞(人臉、場(chǎng)景替換等)或時(shí)間不連續(xù)(拼接、截?cái)嗟龋紩?huì)產(chǎn)生不同的TCH值;但若僅是視頻編碼格式的轉(zhuǎn)換,則會(huì)產(chǎn)生幾乎相同的TCH值??梢娚蓾M足需求的TCH值并根據(jù)該值判定錄像類電子檔案完整性是關(guān)鍵環(huán)節(jié),其流程主要分為以下幾個(gè)步驟。
第一,將錄像類電子檔案的數(shù)字音視頻文件拆分成多個(gè)視頻片段,對(duì)每個(gè)片段中的音頻流和視頻流分別提取對(duì)應(yīng)的特征序列。第二,利用深度神經(jīng)網(wǎng)絡(luò)模型(如CNNLSTM),對(duì)每個(gè)視頻片段的特征序列進(jìn)行訓(xùn)練,得到該片段的音頻流TCH值和視頻流TCH值。在訓(xùn)練過程中,除了將原始文件作為訓(xùn)練數(shù)據(jù)之外,還要將相同文件經(jīng)過格式轉(zhuǎn)換后的樣本數(shù)據(jù)納入訓(xùn)練數(shù)據(jù)集,以便得到判定視頻是否被篡改的門限值。第三,將每個(gè)視頻片段的唯一標(biāo)識(shí)符、模型代碼哈希值、音頻流TCH值、視頻流TCH值、門限值等上鏈。第四,用戶根據(jù)提供的訓(xùn)練模型代碼,計(jì)算得到所需驗(yàn)證視頻片段的音頻流TCH值和視頻流TCH值,與鏈上存儲(chǔ)的對(duì)應(yīng)TCH值比較,若差異超過門限值,則認(rèn)為待驗(yàn)證的視頻片段被篡改了。
ARCHANGEL項(xiàng)目突破了傳統(tǒng)電子檔案管理的信任模式,將基于機(jī)構(gòu)的信任轉(zhuǎn)變?yōu)榛诩夹g(shù)的信任,不可否認(rèn)從技術(shù)角度上看,該項(xiàng)目擁有一個(gè)復(fù)雜且設(shè)計(jì)精密的技術(shù)結(jié)構(gòu),但即使再完美的系統(tǒng)也存在缺陷,其根源與技術(shù)、管理之間沖突息息相關(guān),主要表現(xiàn)在透明與隱私、安全與速度這兩個(gè)方面。在透明與隱私?jīng)_突的層面,開放和透明是基于區(qū)塊鏈驗(yàn)證檔案完整性的核心,如果失去了透明性,區(qū)塊鏈就無法履行職責(zé),但檔案本身的保密性和隱私安全使得這種透明性往往成為其應(yīng)用在檔案管理上的一個(gè)局限因素,上鏈內(nèi)容不可刪除或更改的優(yōu)點(diǎn)反而可能帶來國家、社會(huì)、單位、個(gè)人隱私安全泄露的風(fēng)險(xiǎn)。在安全與速度沖突的層面,基于區(qū)塊鏈的數(shù)據(jù)結(jié)構(gòu)要求每個(gè)被添加或更改的區(qū)塊都需要解決哈希難題,以極高成本保證數(shù)據(jù)不被操縱或偽造,但這大大降低了新數(shù)據(jù)上鏈的速度,與檔案管理環(huán)節(jié)、活動(dòng)對(duì)速度和可擴(kuò)展性的要求形成對(duì)比。因此,如何選擇一個(gè)平衡兩類沖突的折中方案,是立足電子檔案管理根本需求,找到技術(shù)與管理結(jié)合最優(yōu)路線的關(guān)鍵。ARCHANGEL項(xiàng)目選擇上鏈的內(nèi)容只包含檔案文件名、唯一標(biāo)識(shí)符、檔案內(nèi)容哈希值、算法唯一標(biāo)識(shí)符、算法代碼哈希值、附加元數(shù)據(jù)等信息,部分情況下甚至文件名都不上鏈提供,最大程度避免了隱私和敏感信息的泄露。同時(shí),選擇將新區(qū)塊寫入的權(quán)限和共識(shí)過程只授予預(yù)先選定并被確定為可信任的檔案機(jī)構(gòu)節(jié)點(diǎn),通過寫入權(quán)限的限制放寬了區(qū)塊鏈創(chuàng)造信任的條件,以隱藏的中心化屬性換取各類應(yīng)用所需的高處理速度、高延展性和低成本投入需求。
國家檔案局從2017年起陸續(xù)發(fā)布了《錄音錄像檔案數(shù)字化規(guī)范》(DA/T 62—2017)、《錄音錄像類電子檔案元數(shù)據(jù)方案》(DA/T 63—2017)、《錄音錄像檔案管理規(guī)范》(DA/T 78—2019)等行業(yè)標(biāo)準(zhǔn),在主題內(nèi)容、責(zé)任者、業(yè)務(wù)背景、編碼標(biāo)準(zhǔn)、關(guān)鍵技術(shù)參數(shù)、知識(shí)產(chǎn)權(quán)管理等元數(shù)據(jù)層面以及歸檔范圍、收集、整理、著錄、存儲(chǔ)備份、轉(zhuǎn)換遷移等實(shí)體管理層面進(jìn)行了統(tǒng)一規(guī)范,為檔案館(室)開展錄音錄像類電子文件歸檔與電子檔案管理實(shí)踐提供了切實(shí)可行的支撐和作業(yè)標(biāo)準(zhǔn)指南。但從各項(xiàng)標(biāo)準(zhǔn)規(guī)范的內(nèi)容來看,其出發(fā)點(diǎn)基于規(guī)范、指導(dǎo)錄音錄像類電子文件、電子檔案、實(shí)體檔案管理工作,描述、管理對(duì)象是以卷、件為單元,因此其管理粒度仍處于案卷級(jí)、文件級(jí)粒度,還未下沉到檔案內(nèi)容特征層面的屬性描述。這就造成如果需要對(duì)檔案的真實(shí)性進(jìn)行驗(yàn)證,本質(zhì)上依賴的還是機(jī)構(gòu)信任,檔案機(jī)構(gòu)和檔案管理人員在標(biāo)準(zhǔn)規(guī)范的約束下對(duì)檔案來源、內(nèi)容的真實(shí)可靠性負(fù)責(zé),即使此時(shí)將相關(guān)元數(shù)據(jù)、管理流程信息上鏈,也無法完全保證檔案內(nèi)容的真實(shí)性,且備份轉(zhuǎn)換、格式遷移等操作帶來的不同版本重復(fù)上鏈操作,也會(huì)增加管理工作的復(fù)雜程度和用戶的驗(yàn)證難度。ARCHANGEL項(xiàng)目針對(duì)錄像類電子檔案設(shè)計(jì)的專用哈希算法,將管理對(duì)象粒度細(xì)化至音視頻流特征粒度,并基于特征直接生成檔案內(nèi)容哈希值,形成檔案內(nèi)容存證信息,且這種存證信息不會(huì)隨格式遷移變化,能夠保證正常管理工作的合規(guī)合法性,這相當(dāng)于在案卷級(jí)、文件級(jí)層面之下又增加了一道內(nèi)容特征級(jí),三層式的管理粒度涵蓋了從高維語義信息到低維信號(hào)特征的“三保險(xiǎn)”,彌補(bǔ)了檔案內(nèi)容信息的驗(yàn)證手段,構(gòu)成了自頂向下的、多維細(xì)粒度的檔案真實(shí)性驗(yàn)證機(jī)制。
管理協(xié)同就是把局部力量進(jìn)行合理排列組合,來完成某項(xiàng)工作和項(xiàng)目。錄音錄像類電子檔案相較于一般類的電子檔案,無論是收集范圍還是收集要求都更具有獨(dú)特性。比如,錄音錄像類電子檔案記錄的大多是本地區(qū)政治、經(jīng)濟(jì)、文化、體育與社會(huì)事業(yè)等重大活動(dòng),本地區(qū)地理概貌、城鄉(xiāng)建設(shè)、名勝古跡、自然風(fēng)光、民風(fēng)民俗和人物宣傳等題材,本單位工作活動(dòng)、重要會(huì)議、外事活動(dòng)、重點(diǎn)工程、重要人物等主要職能和基本歷史面貌,較少涉及其他地區(qū)或單位的文件收集和流轉(zhuǎn)。而且錄音錄像類電子檔案的聲音影像質(zhì)量、歸檔格式、技術(shù)參數(shù)、存儲(chǔ)備份結(jié)構(gòu)方式等均有較大差異,更容易在各個(gè)檔案機(jī)構(gòu)之間形成“信息孤島”“應(yīng)用孤島”“資源孤島”。因此,錄音錄像類電子檔案的管理協(xié)同就是將封存在各個(gè)檔案機(jī)構(gòu)中的信息、業(yè)務(wù)、資源進(jìn)行時(shí)間、空間和功能結(jié)構(gòu)的重組,解決檔案機(jī)構(gòu)作為傳統(tǒng)可信中心機(jī)構(gòu)存在的分布式環(huán)境、多主體交互、主體間信任度低問題,實(shí)現(xiàn)信息協(xié)同、業(yè)務(wù)協(xié)同、資源協(xié)同,產(chǎn)生一種具有“競(jìng)爭(zhēng)—合作—協(xié)調(diào)”的能力。ARCHANGEL項(xiàng)目展示了數(shù)字檔案機(jī)構(gòu)的協(xié)作本質(zhì),依托檔案機(jī)構(gòu)權(quán)威地位和彼此館藏信任的方式,通過分布在多個(gè)獨(dú)立檔案機(jī)構(gòu)的區(qū)塊鏈平臺(tái),利用PoA的權(quán)限機(jī)制保證“鏈下資源的來源可靠”和“鏈上資源的共識(shí)維護(hù)”,跨越機(jī)構(gòu)之間的邊界建立起一種全新的互信方式,對(duì)降低單個(gè)檔案機(jī)構(gòu)信任風(fēng)險(xiǎn)、提升機(jī)構(gòu)間檔案信息整合效應(yīng)提供了共贏的解決方案。
一要試點(diǎn)出臺(tái)法規(guī)標(biāo)準(zhǔn),明確管理流程中各部門、各單位的責(zé)任分工。在現(xiàn)有電子檔案全程管理過程中,每一個(gè)環(huán)節(jié)、每一項(xiàng)活動(dòng)通常都有相應(yīng)的標(biāo)準(zhǔn)規(guī)范予以支持,如綜合性標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)、管理系統(tǒng)標(biāo)準(zhǔn)、保存標(biāo)準(zhǔn)等,對(duì)實(shí)施具體管理工作提供了依據(jù)。區(qū)塊鏈的引入將用戶對(duì)檔案機(jī)構(gòu)的信任部分轉(zhuǎn)移到對(duì)技術(shù)、協(xié)議的信任,系統(tǒng)完備性所產(chǎn)生的技術(shù)依賴在一定程度會(huì)導(dǎo)致檔案機(jī)構(gòu)、檔案管理人員責(zé)任的缺失,因此需要在戰(zhàn)略層面、宏觀層面出臺(tái)具有指導(dǎo)意義的法規(guī)標(biāo)準(zhǔn),厘清區(qū)塊鏈系統(tǒng)與檔案機(jī)構(gòu)之間的責(zé)任邊界,對(duì)形成部門、檔案部門、信息化部門和保密部門的責(zé)任分工予以明確。
二要擴(kuò)大應(yīng)用場(chǎng)景,充分發(fā)揮區(qū)塊鏈應(yīng)用價(jià)值。從區(qū)塊鏈本身的技術(shù)特征以及它能夠存儲(chǔ)各種數(shù)據(jù)的特點(diǎn)進(jìn)行分析,可以發(fā)現(xiàn)其應(yīng)用場(chǎng)景包括存在/非存在證明、時(shí)間證明、身份證明、作者證明、順序證明等[21]。從包括ARCHANGEL項(xiàng)目在內(nèi)的現(xiàn)有區(qū)塊鏈與檔案業(yè)務(wù)結(jié)合的案例來看,前4個(gè)應(yīng)用場(chǎng)景均有涉及,也就是對(duì)單個(gè)文件的存在與否、時(shí)間戳、身份信息、版權(quán)信息等都能進(jìn)行驗(yàn)證,但順序證明的應(yīng)用鮮有見到。順序證明適用于證明事件發(fā)生的先后順序,在資源按照同一標(biāo)準(zhǔn)進(jìn)行分配時(shí)尤為重要,筆者認(rèn)為順序證明可用于同一全宗、案卷內(nèi)錄音錄像類電子檔案的管理,即在驗(yàn)證單個(gè)檔案完整性的基礎(chǔ)上進(jìn)一步驗(yàn)證全宗和案卷的完整性,從橫向和縱向兩個(gè)層面考慮檔案完整性的驗(yàn)證機(jī)制,這在檔案整理、移交等典型場(chǎng)景下判斷是否有缺漏、篡改等時(shí)頗為重要。
三要在平臺(tái)中融入科學(xué)的獎(jiǎng)勵(lì)機(jī)制,提升檔案機(jī)構(gòu)和用戶的使用興趣和接受度。區(qū)塊鏈在技術(shù)上的不盡成熟和法律地位的不確定性,都會(huì)使檔案機(jī)構(gòu)、用戶不能夠信任區(qū)塊鏈。目前的應(yīng)用優(yōu)勢(shì)如保證檔案完整性、提升機(jī)構(gòu)公信力、資源相互支撐等,大多是針對(duì)機(jī)構(gòu)的,但這些優(yōu)勢(shì)是否足以抵消檔案機(jī)構(gòu)耗費(fèi)的各類成本,需要思考。此外,用戶因?yàn)闄?quán)限受限無法加入共識(shí)過程,也就無法得到相應(yīng)工作量的獎(jiǎng)勵(lì),這會(huì)降低用戶加入平臺(tái)的想法。因此,需要設(shè)計(jì)公平公正的獎(jiǎng)勵(lì)機(jī)制,進(jìn)一步激發(fā)用戶參與的動(dòng)力。