趙 躍 劉瑋晗/四川大學公共管理學院
鑒定是檔案工作中難度最高且爭議最大的環(huán)節(jié)。隨著電子文件的迅猛增長,其多變性、易逝性、內容和載體的可分離性等特點對傳統鑒定理論與方法造成巨大沖擊。一直以來,我國電子文件鑒定研究注重引入國外理論與實踐成果,有學者從時間維度梳理了國外電子文件鑒定理論發(fā)展過程[1],還有學者介紹了國外具有代表性的電子文件鑒定觀[2]。這些成果注重梳理電子文件鑒定理論方法,較少進行系統綜述,且未對鑒定領域的最新觀點和發(fā)展動向進行追蹤。2016年至2020年,國外電子文件鑒定研究呈現諸多新趨勢。本文旨在系統評述這5年國外研究內容與特點,以期對我國電子文件鑒定研究有所啟示。
以國外2016年至2020年電子文件鑒定領域研究文獻為基礎,以外文學術論文為主要文獻來源,在Web of Science、Springer、ScienceDirect、Google scholar等數據庫或學術搜索引擎中,以electronic records appraisal為檢索詞初步檢索,基于對檢索結果的研判,筆者進一步完善檢索策略,將electronic records、digital records、digital data、e-mail、web、social media與appraisal、evaluate、archival appraisal等檢索詞組配檢索,剔除重復與不相關文獻后,最終確定81篇文獻作為研究對象。
通過對文獻年度、機構與作者的分析,筆者發(fā)現2016年至2020年發(fā)文數量依次為25篇、18篇、11篇、12篇和15篇,盡管出現些許波動,但5年年均發(fā)文數量達到16篇,體現出國外學者對此研究領域有持續(xù)較多的關注;81篇文獻共涉及40所機構,其中美國最多(24所),加拿大(9所)和英國(3所)次之。發(fā)文數量較多的機構包括加州大學洛杉磯分校(6篇)、瑞典馬爾默大學(6篇)、馬里蘭大學(5篇)、瑞典中部大學(5篇)、南非大學(4篇)、北卡羅來納大學教堂山分校(3篇)、加拿大渥太華大學(3篇)、韓國釜山大學(3篇);81篇文獻共70位作者,其中大部分作者僅發(fā)表1篇,發(fā)表2篇以上的論文作者有Anne Gilliland(3篇)、Elisabet M. Nilsson(3篇)、Elisabeth Klett(3篇)、Mpho Ngoepe(3篇)。
從關鍵詞詞頻統計結果來看,電子郵件(14次)、電子文件(13)、網絡檔案(5次)、數據(5次)、社交媒體(4次)出現頻次較高,可見近年來國外電子文件鑒定研究對象既包括傳統形式的電子文件,也包括電子郵件等諸多新形式文件。研究內容涉及鑒定主體的協同參與,其中協同存檔(4次)、協同鑒定(4次)受到廣泛關注;研究視域也有一定突破,重視計算機科學、人工智能等學科與鑒定的融合發(fā)展,如自動分類(4次)、機器學習(4次)、自然語言處理(4次)的研究頻次都較高;研究還關注鑒定理論(3次)的發(fā)展,特別是宏觀鑒定(3次)在數字時代的反思。
2.1.1 電子郵件鑒定策略的更新。數字環(huán)境下,電子郵件的指數增長給檔案機構帶來巨大的管理壓力,迫切需要相應的鑒定與歸檔方法。然而,電子郵件的非結構化與多層次使其鑒定受到多重因素制約。受技術更新的影響,電子郵件鑒定時需將文件遷移或規(guī)范化為可讀格式,其過程中郵件真實性無法保證。同時,電子郵件內可能包含大量潛在的個人、非法或政治等敏感信息,容易導致隱私倫理困境。因此,電子郵件鑒定除了確定價值,還須審查其中的敏感信息。
為了解決上述問題,國外學者針對電子郵件鑒定方法的研究強調以技術輔助為主,融入法醫(yī)學、計算機科學等多學科知識框架,推動電子郵件鑒定自動化、智能化以及更高強度的風險管控。針對機構電子文件管理能力的問題,Vellino提出使用機器學習和分類工具輔助鑒定,建立“自動鑒定機制”處理大量原生電子郵件[3];Byers和Sturm提出利用算法建立電子郵件分類模型,分類全流程要以檔案人員制定的標準為基礎[4];West和Kaczmare提出利用預測編碼的人工智能算法定位識別敏感信息、自動鑒定電子郵件及其關聯文件,并生成描述性元數據以幫助文件形成者、檔案管理員和研究人員理解保管電子郵件[5]。鑒于電子郵件的復雜性,Schneider提倡使用由美國斯坦福大學檔案部門開發(fā)的包含檔案處理(Process)、鑒定(Appraise)、發(fā)現(Discover)、傳遞(Deliver)四大模塊的電子郵件管理開源軟件即ePADD來鑒定、保存電子郵件[6]。此外,針對電子郵件隱私和敏感信息問題,Vinh-Doyle提倡使用計算機法醫(yī)學中的數字取證降低官方電子郵件中的個人信息風險[7];Hutchinson提出使用自然語言處理技術(如主題建模)有效地識別電子郵件中需要限制的信息[8]。
2.1.2 網頁文件鑒定方法的探索。由于網頁文件數量巨大、更新迭代快且具有廣泛延展性,網頁文件同樣需要鑒定,以留存具有潛在價值的網頁文件。長遠來看,網頁文件鑒定過程是構筑并傳承網絡文化遺產的過程,其最終使命是保存社會文化記憶。由于網頁文件存在形式的特殊性,國外學者通常從宏觀和微觀兩個視角探討其鑒定問題。
在宏觀的鑒定理論方法方面,Byers 和Sturm主張將文檔分析策略、后保管方法等引入網頁文件鑒定[9];Post認為可將宏觀鑒定法、成本效益分析等理論框架應用于網頁文件鑒定[10]。關于鑒定方法,Summers提出網絡存檔是一種社會技術系統,其鑒定過程涉及檔案管理員、“種子清單”和自動機器人之間的協作,提倡開發(fā)提供爬取建議的“種子清單”來指導鑒定工作,并加強檔案管理員之間的協作[11];此外,Duncan認為網絡存檔鑒定工作也應當跨機構合作,以應對技術和資源缺陷的挑戰(zhàn)[12]。
在微觀視角的鑒定要素方面,Post指出網頁文件鑒定除了要關注網頁內容本身的價值,也要結合網頁的延展性、動態(tài)性以及差異化的技術特征來判定其歸檔狀況。因此,網頁文件鑒定包括網頁內容、范圍、數量、爬取頻率、爬取工具五大要素[13]。Summers指出爬取頻率要素最為關鍵,取決于后勤保障和資源限制[14]。Pendse則指出爬取頻率要依據不同網頁的動態(tài)性差異化設定,如爬取頻率可依據事件發(fā)展過程中的關鍵時刻確定[15]。
2.2.1 個人數字文件鑒定的興起。隨著個人數字存檔研究的興起,電子文件鑒定主體研究視角逐漸從機構拓展至個人。Schoenebecks從個人數字文件鑒定歸檔主體控制權的視角提出官方機構不應介入個人數字文件鑒定實踐。當下個人信息不可避免地向科技公司遷移,Twitter和Facebook等科技公司已經具備了塑造社會記憶的權力。由于科技公司的控制,個人數字文件的鑒定歸檔過程被歸為中立的數據存儲機制的運作,而作為文件形成主體的個人的文件控制權正在逐步被削弱。因此他們提出應將鑒定理論建構與現代數字技術平臺的要求相結合,重新考量個人數字文件鑒定的價值分配[16]。Acker和Kreisberg則從社交媒體數據獲取的角度指出應用程序編程接口對用戶開放的獲取權限和限制僵化,記憶機構、個人、平臺開發(fā)商所擁有的訪問保管權限被“一刀切”,導致了所選擇留存的社交媒體數據的完整性缺失。他們提出劃分不同主體的分布式保管責任,更要從保存數字文化記憶的角度構建新的鑒定和存檔模式[17]。
2.2.2 參與式鑒定思想的提出。數字轉型背景下,以多元主體協同為要義的參與式特征在檔案工作中出現。電子文件的鑒定責任不再單一劃歸檔案工作者,而是由多元主體共同參與實現協作鑒定。對于官方檔案鑒定,Ngoepe認為在數字環(huán)境中,政府機構文件管理員、檔案工作者、信息技術專家和文件形成者、律師、審計師和其他學科專家應作為一個團隊開展鑒定工作,以便吸納和利用各方利益相關者的建議及資源[18];Ngoepe和Vellino提出檔案鑒定的參與模式,主張檔案形成者應最大程度參與檔案鑒定活動,為鑒定提供文件使用記錄及背景信息[19][20]。
對于非官方檔案鑒定,Nilsson從社群記憶的角度在“Living Archives”項目中探索了一項名為原型協作的歸檔實踐,邀請邊緣群體收集、存儲和分享他們的記憶和文化遺產,并借助共同存檔、共同鑒定的“原型協作”鑒定方法將以檔案工作者為核心的鑒定轉向檔案形成者的共同鑒定[21];Warren從人權保障的角度,以法屬安的列斯群島被奴役的黑人婦女檔案為依據,指出檔案鑒定的權利等同于對群體記憶的敘述權利,在互聯網環(huán)境下應當承認并賦予檔案記錄主體檔案控制管理權,使邊緣群體參與鑒定以反駁片面化的官方敘述,維護自身權利。Warren認為檔案人員在邀請社群成員參與檔案鑒定工作的同時,也應思索鑒定權責與標準[22]。
2.3.1 宏觀鑒定理論的再探討。自上而下的宏觀鑒定論為檔案界提供了一種較為合理的和有價值的鑒定理論,近年來學界針對宏觀鑒定論在電子文件鑒定中的應用進行了討論。Kim以英國國家檔案館為例研究了數字時代的公共檔案鑒定政策,指出由于電子文件的定量擴展和復雜性的增加,引入宏觀鑒定論已經成為必然。同時,他還指出要加強電子文件管理流程中前端的預鑒定,并且建立適合宏觀鑒定方法的綜合鑒定標準和規(guī)范[23];Ngoepe和Nkwe也以南非國家檔案館的鑒定政策評估為依據,指出宏觀鑒定的重要性,即電子文件鑒定的重點應當應放在文件形成者及其職能上,并提出以宏觀鑒定與微觀鑒定相結合的方式進行多角度鑒定[24]。
2.3.2 基于信息流分析的鑒定思路。傳統的鑒定觀以價值鑒定、職能鑒定等為基礎,雖然建立了鑒定標準但避免不了一定的主觀性。國外學者則基于信息科學提出信息流分析法,即在鑒定中建立客觀標準及參數如相關性、密度、頻率等,企圖消除傳統鑒定方法的模糊性和主觀性[25]。Rockembach提出信息流分析鑒定的對象已經從文件轉向信息,因此應當更多從信息篩選視角出發(fā),考慮信息中所包含的證據的充分性[26]。此外,Sinn還提出了“clue-evidenceproof”模型,認為信息的證據價值應當依據認知監(jiān)測、信息形式、信息完整性、目標實現程度、作者身份信譽、信息組織檢索等指標進行判定[27]。
當前,電子文件管理中技術應用盡管在支持數字保存和檔案描述方面取得了進展,但在電子文件鑒定中的應用還較少。技術輔助電子文件鑒定是由電子文件急劇增長所帶來的高效鑒定需要與當前鑒定資源、能力欠缺的矛盾發(fā)展的必然結果,電子文件的技術特性也使其具備技術應用的條件。
2.4.1 鑒定過程的技術應用方式。針對電子文件鑒定中的技術應用,有學者主張開發(fā)獨立的鑒定系統輔助電子文件鑒定。如Gilliland提出開發(fā)一個模仿人類專家決策過程的計算機系統,實現電子郵件自動鑒定[28];Shallcross介紹了由加拿大不列顛哥倫比亞省ArteFederal Systems項目開發(fā)的數字保存系統Archivematica,提出在系統內開發(fā)鑒定與組織選項卡板塊,增添目錄分類、格式描述、敏感數據識別、內容預覽、標引等功能,實現對電子文件的大規(guī)模鑒定[29]。也有學者倡導將適應性的工具或技術融入鑒定流程。如,Lee[30]、Belovari[31]和Douglas[32]等指出數字取證技術、自然語言處理技術、機器學習三種技術為電子文件的鑒定提供了改進源數據處理設施、高效自動識別文件背景和隱私信息、自動分類、人工智能判定的可能性。
2.4.2 技術在鑒定中的定位問題。盡管技術的應用能夠為電子文件高效自動化鑒定提供強有力的支持,但由于某些技術和軟件系統并無法完全就鑒定規(guī)則或原則達成共識,因此鑒定技術、軟件、系統并不能完全取代檔案工作者的決策而成為電子文件鑒定的決定因素。對此問題,Lee就明確指出人類的鑒定決策應居于主導地位[33];Hilton認為鑒定過程即分析過程,最重要的鑒定工具是人的鑒定思維[34]; Gilliland也指出檔案鑒定輔助工具發(fā)展的強勁軌跡不僅需要擁有健全的技術,更需要檔案管理人員的管理思維、鑒定理念和完善的鑒定文化的加持[35]。
在研究理念上,一方面,國外學者注重在數字化和信息技術革命浪潮下對已有理論進行回歸性的批判反思,探索傳統理論依托新技術、新形式的革新途徑,挖掘傳統理論的持久價值,特別是宏觀鑒定論在電子文件鑒定實踐中的作用;另一方面,國外學者也敢于總結并提出電子文件鑒定新方法,以適應信息化背景下電子文件的管理需求。雖然國外對于鑒定理論的研究關注有所減少,但面臨新技術、新載體的挑戰(zhàn),如何將傳統理論應用于新環(huán)境下的電子文件鑒定,如何以傳統理論為依托創(chuàng)新發(fā)展新的鑒定理論與方法,仍舊是今后電子文件鑒定的研究方向。
在研究方法的使用上,一方面,國外研究注重突破傳統鑒定方式的束縛,以現有實踐經驗為基礎,提出新的理論構想。多位學者融合跨學科知識如計算機、計算機法醫(yī)學等提出了新型鑒定思路。另一方面,也有學者注重案例或實證研究。一些學者以案例研究的方式,通過問卷調查、訪談等形式對個體或者機構內部人員進行調查,以此從各國鑒定實踐中總結經驗規(guī)律。
國外學者的研究一方面注重強調社會參與和引導社會思維,具體體現在對鑒定主體多元化的關注增多,更多地從鑒定更廣泛的社會職能出發(fā),充分考量多元主體資源管理與利用需求,強調多元利益主體對鑒定的作用,協助多元主體尋求更廣泛的身份認同。另一方面鑒定研究從價值判斷更多地轉向兼顧價值與安全問題的判斷。在開放數據環(huán)境下,聚焦隱私保護與信息安全,維護國家、組織和個人信息權益,已成為國外鑒定領域高度關注的新問題。
近年來,越來越多的學者從技術視角審視電子文件鑒定問題,試圖為信息時代的檔案鑒定工作提供一個更加科學化、系統化和智能化的改革契機。一方面,電子文件鑒定研究當中,鑒定技術研究的比重上升,強調數字取證、機器學習、自然語言處理等技術在鑒定過程中的重要地位,為電子文件鑒定構建起新的發(fā)展框架。另一方面,國外研究又以辯證思維分析了技術應用在鑒定中的地位,提出解決知識理解以及價值判斷問題是需要進一步考慮的。
Terry Cook提出的“社區(qū)”范式正逐步實現,鑒定這一行為隨著檔案自身變化以及人們社會認知的提升而逐步擴展到更為廣泛的社會領域當中。一方面,電子郵件、網頁文件、社交媒體文件鑒定逐步納入鑒定體系。對于多元化的鑒定范疇,檔案學界應當保持包容與開放的態(tài)度,挖掘不同形式電子文件鑒定的特殊性,探索差異化的鑒定方式。另一方面,電子文件鑒定的主體從單一的主流機構轉向社區(qū)、邊緣群體、個人等多元主體,并以參與式協作的方式實現協同互動。電子文件鑒定研究應當打破傳統的單一式束縛,充分思考并尊重每份檔案背后主體的情感傾向與社會話語權,從更廣闊的社會視角實現檔案價值的再發(fā)現。同時,也要通過完善鑒定標準規(guī)范多元主體鑒定的權責關系,明確多元主體鑒定模式的具體運作方式。
在數字時代,我國對于檔案鑒定在價值問題上的討論更為突出。但紙質檔案時代傳統的年齡鑒定論、職能鑒定論等鑒定思想難以適應信息化發(fā)展要求,電子文件鑒定研究需要基于傳統理論探索不同類型電子文件鑒定新理論與新方法。第一,打破傳統以價值鑒定為核心的定性分析困境,借鑒國外信息流鑒定等方法,嘗試從定量分析角度賦予電子文件鑒定可量化、可操作的指標。第二,由于新形式電子文件的發(fā)展以及多元主體利益的交叉,研究需要關注隱私安全以及敏感信息的鑒定,以保障在檔案開放趨勢下多方利益主體的權益。第三,對于特殊電子文件鑒定如個人數字文件鑒定,應當理清其中不同主體的權責關系,加強其鑒定方法的建設與指導。我國電子文件鑒定研究在參考國外理論的同時應結合中國鑒定工作實際,從當下鑒定工作的社會環(huán)境、文化背景、管理體制出發(fā),探索切實的標準與方法。
國外電子文件鑒定研究聚焦于以信息技術為主的跨學科方法在鑒定流程中的應用,其中包括計算機科學、信息科學等新型學科知識的融入。電子文件鑒定不應局限于單一的研究視角,而應從多學科借鑒方法如文本挖掘、語義分析、智能分析等實現更高效的鑒定。同時,也應吸納多元的知識體系,借助多元知識模型或計算機技術在實踐層面上探索智能高效的鑒定機制。當然,跨學科語境下的電子文件鑒定并不意味著新知識和新技能將檔案工作者轉變?yōu)椤凹夹g程序員”,我國應當引入計算檔案學等跨學科教育框架,加強對兼具計算思維和檔案思維的新型復合人才的培養(yǎng),為電子文件鑒定提供新思想、新動力。
微觀上,鑒定決定了組織內部各類文件的去留;但宏觀上,鑒定實際上反映了一個時代的社會和文化意識,鑒定的過程其實是一個國家、甚至人類社會歷史文化遺產構建和塑造的過程。當下,國外學者已經從社會文化記憶角度強調鑒定擔負著傳承文化遺產的重要使命[36]。電子文件鑒定作為塑造我國社會文化遺產的重要一環(huán),應當與當前大環(huán)境和國家戰(zhàn)略相結合以構建管理模式。我國也需要對電子文件鑒定的社會、文化和歷史價值的更廣泛的理論進行研究,從而更深入地挖掘電子文件鑒定為文化遺產和社會記憶這一更大的圖景作出貢獻的方式。