顧 偉/安徽大學(xué)
真實(shí)性是檔案的重要屬性,確保檔案的真實(shí)是檔案全生命周期管理的重要內(nèi)容,無(wú)論是紙質(zhì)檔案還是電子檔案,保障檔案真實(shí)性始終是檔案學(xué)研究的重要方向。對(duì)不同的檔案載體來(lái)說(shuō),唯一的變化是對(duì)檔案真實(shí)性的研究重點(diǎn)和關(guān)注內(nèi)容。紙質(zhì)檔案管理時(shí)期,檔案真實(shí)性重點(diǎn)關(guān)注檔案形成過(guò)程的真實(shí)和檔案信息內(nèi)容的真實(shí);而在電子檔案管理時(shí)期,由于電子檔案對(duì)前端業(yè)務(wù)系統(tǒng)和計(jì)算機(jī)系統(tǒng)的依賴性,檔案的原始記錄性難以保證,業(yè)務(wù)系統(tǒng)既能形成電子文件,也能修改甚至刪除電子文件。計(jì)算機(jī)系統(tǒng)擁有最高權(quán)限,可以越過(guò)任何屏障,從系統(tǒng)底層任意改動(dòng)電子檔案,因此電子檔案的真實(shí)性難以保證。保障電子檔案的真實(shí)性是一個(gè)涉及環(huán)境認(rèn)知、制度規(guī)范、人員素質(zhì)、管理活動(dòng)、技術(shù)系統(tǒng)等多種因素的綜合性問(wèn)題[1],只有做到“來(lái)源可靠、程序規(guī)范、要素合規(guī)”才能確保電子檔案的真實(shí)性。
電子照片檔案是常見(jiàn)且常用的原生電子檔案,相對(duì)于其他電子檔案,從數(shù)據(jù)形式上來(lái)說(shuō),電子照片屬于多媒體數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)有自身特點(diǎn);從檔案利用上來(lái)說(shuō),電子照片直觀性強(qiáng)、傳播速度快、傳播范圍廣;從篡改行為上來(lái)說(shuō),篡改電子照片檔案的技術(shù)手段多、方式多、成本低;從篡改檢測(cè)上來(lái)說(shuō),人們對(duì)電子照片檔案真實(shí)性鑒定需求相對(duì)較多,但有效檢測(cè)手段較少。本文針對(duì)電子照片檔案內(nèi)容真實(shí)性問(wèn)題進(jìn)行研究,在現(xiàn)有研究基礎(chǔ)之上,分析電子照片檔案內(nèi)容真實(shí)性的現(xiàn)實(shí)需求,給出相應(yīng)的技術(shù)解決方案。
以中國(guó)知網(wǎng)全文數(shù)據(jù)庫(kù)為檢索對(duì)象,將檢索條件設(shè)置為“電子照片/數(shù)碼照片+真實(shí)性”,同時(shí)將“中圖分類號(hào)”設(shè)置為“G270”或“G271”,并去除關(guān)聯(lián)度較弱的文獻(xiàn),可以檢索出強(qiáng)相關(guān)的研究論文52篇。
以時(shí)間為序,分析這些文獻(xiàn)可以發(fā)現(xiàn):不同階段的電子照片檔案內(nèi)容真實(shí)性研究各有研究重點(diǎn)。2010年之前,檔案工作處于紙質(zhì)檔案管理向電子檔案管理的過(guò)渡階段,該階段的電子照片檔案的研究側(cè)重于分析紙質(zhì)照片與電子照片檔案管理方法的不同[2]以及電子環(huán)境下照片檔案的管理特點(diǎn)、原則和要求[3],電子照片檔案的真實(shí)性問(wèn)題初步得到學(xué)者關(guān)注,研究?jī)?nèi)容主要集中于分析“圖像檔案被人為修改的狀況和原因”,并從數(shù)碼照片造假事件入手[4],分析如何評(píng)估數(shù)碼照片的真實(shí)性以及由此給檔案管理工作帶來(lái)的啟示[5]。2011年至2015年,學(xué)者們開(kāi)始具體分析電子照片的各種特性,提出了基于前端控制思想的“一致性”保真策略[6],并對(duì)電子照片真實(shí)性鑒定的可行性進(jìn)行研究,提出了電子照片真實(shí)性鑒定的總體框架和檢測(cè)手段[7]。在這一階段,國(guó)家檔案局頒布了行業(yè)標(biāo)準(zhǔn)《照片類電子檔案元數(shù)據(jù)方案》,為電子照片檔案真實(shí)性提供保障。2016年至2020年,學(xué)者們偏重對(duì)電子照片檔案真實(shí)性問(wèn)題整體解決框架的構(gòu)建和多樣化技術(shù)方案的研究,提出了基于計(jì)算機(jī)技術(shù)的電子照片檔案真?zhèn)舞b定方法[8],對(duì)各種電子照片真實(shí)性的檢測(cè)方法進(jìn)行了比較[9],并從電子檔案“四性”檢測(cè)的角度[10],提出了電子檔案真實(shí)性的檢測(cè)內(nèi)容和實(shí)現(xiàn)方式[11]。
可以看出,電子照片檔案真實(shí)性問(wèn)題的研究是隨著檔案信息化建設(shè)的開(kāi)展而開(kāi)展的,是一個(gè)由淺到深的研究過(guò)程,經(jīng)歷了從管理向技術(shù)的變化。
以中國(guó)知網(wǎng)全文數(shù)據(jù)庫(kù)為檢索對(duì)象,將檢索條件設(shè)置為“圖像真實(shí)性+被動(dòng)認(rèn)證”,同時(shí)將“中圖分類號(hào)”設(shè)置為“TP39”,可以檢索出強(qiáng)相關(guān)研究論文644篇。
仍以時(shí)間為序,研讀這些文獻(xiàn)可以發(fā)現(xiàn):在計(jì)算機(jī)領(lǐng)域,對(duì)圖像真實(shí)性的研究時(shí)間較早,可以追溯到20世紀(jì)90年代初,研究?jī)?nèi)容側(cè)重于從技術(shù)層面對(duì)圖像真實(shí)性檢測(cè)算法進(jìn)行研究。10多年來(lái),計(jì)算機(jī)領(lǐng)域?qū)D像真實(shí)性的研究也是一個(gè)由淺到深、由點(diǎn)到面、由粗到細(xì)的過(guò)程。檢測(cè)方法可以分為主動(dòng)檢測(cè)和被動(dòng)認(rèn)證兩大類[12],用于滿足不同場(chǎng)景下圖像真實(shí)性檢測(cè)需求。早期的研究通常是采用主動(dòng)檢測(cè)方法驗(yàn)證圖像真實(shí)性,即在不影響用戶體驗(yàn)和實(shí)際使用的前提下,向圖像數(shù)據(jù)冗余區(qū)域加入人眼不可見(jiàn)的脆弱信息來(lái)驗(yàn)證圖像真實(shí)性[13]。所謂“脆弱”可以理解為“一碰就碎”,當(dāng)圖像被攻擊或篡改時(shí),部分圖像像素值必然發(fā)生改變,與此相關(guān)聯(lián)的是,嵌入圖像的“脆弱”信息也會(huì)隨之發(fā)生部分變化。因此,可以通過(guò)檢測(cè)“脆弱”信息的一致性來(lái)判斷圖像的真實(shí)性。這種方法的缺點(diǎn)是不可逆地破壞了圖像的原始性,所以在后期的研究中,學(xué)者們開(kāi)始采取被動(dòng)認(rèn)證的方式檢測(cè)圖像真?zhèn)?。首先建立圖像的各種數(shù)據(jù)模型,并分析待檢圖像的相關(guān)性特征,將二者進(jìn)行比較,從而實(shí)現(xiàn)圖像真?zhèn)闻卸?。再后?lái),有學(xué)者將主動(dòng)和被動(dòng)的這兩種方法相結(jié)合,提出了可恢復(fù)場(chǎng)景下圖像真實(shí)性鑒別方法,即采用主動(dòng)嵌入的方法檢測(cè)圖像真?zhèn)?,同時(shí)也可以將嵌入的信息無(wú)失真地刪除。
電子照片檔案內(nèi)容真實(shí)性問(wèn)題的研究本質(zhì)上是一個(gè)跨檔案和計(jì)算機(jī)兩個(gè)學(xué)科的綜合性研究,在既有研究中,檔案人側(cè)重從檔案業(yè)務(wù)的視角研究保障電子照片檔案內(nèi)容真實(shí)性的管理、制度、人員等非技術(shù)性因素,忽略了電子照片檔案的“電子”屬性;從事計(jì)算機(jī)研究的學(xué)者著重研究篡改電子照片的各種方法以及有效檢測(cè)這些篡改操作的技術(shù)手段,不會(huì)考慮電子照片的“檔案”屬性。這就產(chǎn)生了問(wèn)題:一方面,檔案人不能站在計(jì)算機(jī)防偽研究的角度,提出結(jié)合檔案業(yè)務(wù)需求的電子照片檔案保真技術(shù)要求,讓計(jì)算機(jī)領(lǐng)域的學(xué)者去研究解決方法。另一方面,計(jì)算機(jī)領(lǐng)域的學(xué)者對(duì)電子照片保真所做的研究是一種共性研究,雖然可能對(duì)醫(yī)學(xué)、軍事等領(lǐng)域的電子圖像做過(guò)具體研究,但是沒(méi)有專門(mén)針對(duì)電子照片檔案的數(shù)據(jù)特點(diǎn)提出電子照片真實(shí)性保護(hù)的解決方案,也沒(méi)有對(duì)電子照片檔案保真典型應(yīng)用場(chǎng)景進(jìn)行專門(mén)分析。因此,他們?nèi)狈?yīng)有的背景知識(shí),不能針對(duì)電子照片檔案管理中的業(yè)務(wù)痛點(diǎn)提出合理的技術(shù)方案。我們應(yīng)該從檔案專業(yè)的角度提出計(jì)算機(jī)領(lǐng)域的業(yè)務(wù)需求,也應(yīng)從計(jì)算機(jī)技術(shù)的角度回應(yīng)檔案人的技術(shù)需求。
檔案收集是檔案管理的第一步。在收集階段做好電子照片真實(shí)性鑒定工作是確保電子照片檔案真實(shí)性的重要業(yè)務(wù)節(jié)點(diǎn)和關(guān)鍵環(huán)節(jié)。在這一階段,我們首先應(yīng)對(duì)電子照片形成過(guò)程的真實(shí)性進(jìn)行鑒定,做好電子照片的身份認(rèn)證和完整性認(rèn)證,檢查電子照片責(zé)任者、形成時(shí)間等相關(guān)信息是否正確,以及結(jié)構(gòu)、背景信息是否缺失。接著還要對(duì)電子照片內(nèi)容的真實(shí)性進(jìn)行檢測(cè),包括兩個(gè)方面:一是檢測(cè)電子照片元數(shù)據(jù)內(nèi)容的真實(shí)性;二是判斷電子照片形成之后是否被人為改動(dòng)。
根據(jù)《照片類電子檔案元數(shù)據(jù)方案》,電子照片元數(shù)據(jù)包括很多項(xiàng)內(nèi)容,其中與電子照片真實(shí)性有關(guān)并可以依靠技術(shù)手段進(jìn)行檢測(cè)的元數(shù)據(jù)分為兩類:一類是反映電子照片來(lái)源的元數(shù)據(jù),如編號(hào)為M43(捕獲設(shè)備)的容器型元數(shù)據(jù)及其子元數(shù)據(jù),可以利用計(jì)算機(jī)領(lǐng)域的照片來(lái)源檢測(cè)方法進(jìn)行檢測(cè)。不同型號(hào)成像器材物理介質(zhì)存在差異,這種差異會(huì)反映在電子照片成像特征上,通過(guò)分析能夠區(qū)別電子照片來(lái)源的特征,即可實(shí)現(xiàn)對(duì)電子照片來(lái)源的檢測(cè)[14]。另一類是反映電子照片自身屬性的元數(shù)據(jù),如編號(hào)為M54(圖像參數(shù))的容器型元數(shù)據(jù)及其子元數(shù)據(jù),這些元數(shù)據(jù)的值不僅相互之間有限制關(guān)系,而且與電子照片EXIF信息也有關(guān)聯(lián)性。單純修改元數(shù)據(jù)的值而不改動(dòng)電子照片的數(shù)據(jù)信息,必將引起二者之間的矛盾。因此,研究它們之間存在的關(guān)聯(lián)關(guān)系可以檢測(cè)元數(shù)據(jù)的真實(shí)性。
改動(dòng)電子照片內(nèi)容的操作有多種方式,既有復(fù)制—粘貼、重壓縮、圖像模糊和圖像拼接等有實(shí)際內(nèi)容篡改的操作,也有如亮度、對(duì)比度調(diào)整等無(wú)實(shí)質(zhì)內(nèi)容改動(dòng)的潤(rùn)飾操作。從檔案角度來(lái)說(shuō),其中任何一種操作都是對(duì)原始記錄性的破壞,都應(yīng)該盡可能地去發(fā)現(xiàn)。從電子照片角度來(lái)說(shuō),其中任何一種改動(dòng)都會(huì)留下痕跡,破壞電子照片的圖像特征和統(tǒng)計(jì)特性。因此,可以在具體分析電子照片各種統(tǒng)計(jì)特征的基礎(chǔ)上,綜合運(yùn)用各種圖像處理算法,通過(guò)比較電子照片與圖像模型之間的一致性判定電子照片內(nèi)容的真實(shí)性。
在檔案管理環(huán)節(jié),電子照片檔案保真的業(yè)務(wù)需求相對(duì)簡(jiǎn)單,重點(diǎn)要確保電子照片檔案在保管過(guò)程中“始終如一”,不論是電子照片的內(nèi)容還是元數(shù)據(jù)信息都要做到始終不變。現(xiàn)實(shí)情況是照片檔案的保管期限大多為長(zhǎng)期或永久,而電子照片具有脆弱性,即使它們發(fā)生了改變也很難被人發(fā)現(xiàn)。因此,在這一階段應(yīng)該采取技術(shù)手段及時(shí)發(fā)現(xiàn)這種改變。發(fā)現(xiàn)電子檔案是否有改動(dòng)的技術(shù)方法較多[15],各種方法的優(yōu)缺點(diǎn)和應(yīng)用場(chǎng)景不盡相同,這里我們建議采用哈希值校驗(yàn)技術(shù)來(lái)檢查電子照片檔案的真實(shí)性,原因有三:一是哈希值校驗(yàn)技術(shù)簡(jiǎn)單、有效、易于實(shí)現(xiàn),且使用范圍廣;二是哈希值長(zhǎng)度固定且占用的存儲(chǔ)空間少,電子照片數(shù)量越多,這種技術(shù)在空間存儲(chǔ)上的優(yōu)勢(shì)體現(xiàn)得就越明顯;三是哈希算法能夠保證哈希值的唯一性,在某些場(chǎng)景中可以作為每幅電子照片的標(biāo)識(shí)符,有利于照片的區(qū)分和利用。
在檔案利用過(guò)程中,一旦電子照片檔案被分發(fā)或傳播,其真實(shí)性就難以得到保障,既存在第三方篡改電子照片內(nèi)容的可能性,也存在檔案利用者斷章取義地扭曲電子照片本意的可能性。因此,與前兩個(gè)環(huán)節(jié)相比,檔案利用環(huán)節(jié)應(yīng)更加注意電子照片檔案真實(shí)性和完整性的檢測(cè)。在檢測(cè)的過(guò)程中要做到:一是檢測(cè)方法便捷、有效,能夠快速得到檢測(cè)結(jié)果,以利于檔案利用場(chǎng)景下電子照片真實(shí)性的實(shí)時(shí)鑒定。二是檢測(cè)方法獨(dú)立性要強(qiáng),在檢測(cè)過(guò)程中,盡可能做到?jīng)]有任何輔助信息的幫助也可以完成鑒定,這樣有助于提高檢測(cè)方法的適用性。三是檢測(cè)方法不僅能檢測(cè)電子照片的真實(shí)性,還要能檢測(cè)電子照片的完整性。在檔案利用過(guò)程中,對(duì)電子照片任意的裁剪雖沒(méi)有改動(dòng)照片內(nèi)容,但改變了照片所要表達(dá)的含義,這就破壞了電子照片的完整性,也是對(duì)電子照片真實(shí)性的破壞,因此好的檢測(cè)方法應(yīng)能夠?qū)崿F(xiàn)電子照片完整性檢測(cè)。
內(nèi)容取證方法本質(zhì)上是一種“盲檢測(cè)”技術(shù),是利用電子照片自身信息來(lái)判斷照片內(nèi)容真實(shí)性、完整性和原始性的方法,它適用于在檔案收集環(huán)節(jié)進(jìn)行電子照片來(lái)源鑒定和內(nèi)容真實(shí)性檢測(cè)的場(chǎng)景。
對(duì)電子照片來(lái)源進(jìn)行鑒定的基本思路是根據(jù)電子照片的成像機(jī)理,找出能夠代表電子照片唯一性的特征屬性,從而判定電子照片的來(lái)源。通常的技術(shù)方法有兩種:一是從成像器件硬件設(shè)備的層面,提取成像器件固有缺陷引起的異常像素點(diǎn)信息,對(duì)電子照片來(lái)源進(jìn)行取證和鑒別。二是立足電子照片本身,使用同一部相機(jī)拍攝大量照片,利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,提取電子照片的特征;再將待檢測(cè)照片的特征與由該相機(jī)拍攝的照片特征進(jìn)行比對(duì),從而判定待檢照片是否來(lái)自該部相機(jī)。
電子照片內(nèi)容篡改方式有多種,常見(jiàn)的篡改方式一般都有相對(duì)應(yīng)的檢測(cè)方法。如,檢測(cè)電子照片復(fù)制—粘貼篡改操作的代表性方法有基于尺度不變性的檢測(cè)技術(shù)[16],檢測(cè)圖像拼接操作的代表性方法有基于雙相干特征的檢測(cè)技術(shù),檢測(cè)模糊潤(rùn)飾操作的方法有基于馬爾科夫方法的檢測(cè)技術(shù)和基于灰度共生矩陣的檢測(cè)技術(shù)。需要指出的是,能夠檢測(cè)出電子照片所有篡改方式的通用方法并不存在,但每一種篡改方式所對(duì)應(yīng)的檢測(cè)方法也不是完全孤立的,相互之間是可以印證的。電子照片內(nèi)容篡改檢測(cè)問(wèn)題較為復(fù)雜,我們應(yīng)該從全局角度,利用各種檢測(cè)方法綜合判斷電子照片是否發(fā)生篡改。
哈希值校驗(yàn)方法基本思路是輸入電子照片,利用散列算法將電子照片變?yōu)楣潭ㄩL(zhǎng)度的散列值。不同電子照片散列值是不一樣的,即使存在哈希沖突的情況,也可以利用開(kāi)放尋址法、再散列法等方法處理沖突。同時(shí),哈希算法是一種單向不可逆算法,不可能通過(guò)散列值倒推原始數(shù)據(jù),其安全性是可以保障的。常見(jiàn)的哈希算法有MD5算法和SHA-1算法,它們的散列值長(zhǎng)度分別為128位和160位。換句話說(shuō),一幅電子照片可以利用長(zhǎng)度較短且位數(shù)固定的散列值來(lái)代表,如果電子照片發(fā)生了變化,它的散列值將隨之發(fā)生改變,由此可以判別電子照片在存儲(chǔ)過(guò)程中是否發(fā)生改動(dòng)。
數(shù)字水印方法是一種主動(dòng)保護(hù)方法,與內(nèi)容取證方法不同的是,它是在電子照片中主動(dòng)嵌入數(shù)字水印,通過(guò)檢查數(shù)字水印的一致性和完整性判斷電子照片是否發(fā)生過(guò)更改,這適用于檔案利用過(guò)程中電子照片真實(shí)性保護(hù)。
常見(jiàn)的水印技術(shù)是一種人眼可見(jiàn)的明水印,將明水印嵌入電子照片中,既是對(duì)電子照片原始性的破壞,也影響了用戶的利用體驗(yàn)。為不破壞電子照片原始記錄性,也不影響用戶的利用體驗(yàn),我們提出了將不可見(jiàn)的可逆水印嵌入電子照片的思路?!安豢梢?jiàn)”指人眼視覺(jué)上的不可見(jiàn),目的在于不影響用戶體驗(yàn);“可逆”指可恢復(fù),即可以將嵌入水印后的電子照片無(wú)損恢復(fù)成未嵌入水印狀態(tài)的原始電子照片,確保電子照片在利用過(guò)程中不受到任何破壞[17]。
在電子照片檔案利用環(huán)節(jié),我們選用的基于不可見(jiàn)可逆水印的電子照片真實(shí)性保護(hù)方法應(yīng)盡可能簡(jiǎn)單、有效,如直方圖移位方法和差值擴(kuò)展方法等,這些方法不僅獨(dú)立性強(qiáng),不需要輔助信息的幫助就可以完成電子照片真實(shí)性檢測(cè),而且水印信息提取過(guò)程簡(jiǎn)單,檢測(cè)的實(shí)時(shí)性較高;同時(shí),在水印嵌入的強(qiáng)度選擇上,應(yīng)以嵌入水印后的電子照片視覺(jué)質(zhì)量不降低為標(biāo)準(zhǔn);在水印嵌入位置上,嵌入算法應(yīng)能保證所有水印信息盡可能均勻分布在整幅電子照片上,以達(dá)到檢測(cè)電子照片完整性的目的。
由于電子照片具有脆弱性和篡改不易察覺(jué)性,鑒別電子照片檔案真實(shí)性較為困難,尤其是圖像編輯技術(shù)的發(fā)展,各種圖像改動(dòng)方式更加隱蔽和多樣,電子照片檔案真實(shí)性鑒別變得更加復(fù)雜。在我國(guó),電子照片檔案內(nèi)容真實(shí)性保護(hù)研究還處于初期階段,還有大量研究工作有待開(kāi)展。我們一方面應(yīng)該加強(qiáng)理論研究,另一方面也應(yīng)深入實(shí)際業(yè)務(wù)工作,準(zhǔn)確把握業(yè)務(wù)環(huán)節(jié)的關(guān)鍵點(diǎn),切實(shí)解決電子照片檔案真實(shí)性保護(hù)中的難點(diǎn)問(wèn)題。