李劍鋒/國防大學(xué)政治學(xué)院
檔案鑒定是檔案管理的核心環(huán)節(jié),是對檔案價值的復(fù)雜性及其可持續(xù)性做出判斷的一項(xiàng)專業(yè)活動。傳統(tǒng)的檔案鑒定工作依托檔案工作者人工評價、選擇和審查來完成,隨著近年來數(shù)字檔案數(shù)量的急劇增加,這種鑒定模式受到?jīng)_擊。一方面,檔案鑒定理論從年齡鑒定論發(fā)展到目前被廣泛認(rèn)可并采用的宏觀鑒定論,需要檔案工作者了解更多的社會背景,以及文件形成者的職能、任務(wù)和活動[1],以更全面的知識體系和綜合素質(zhì)完成檔案鑒定工作。然而,“任何人終其一生的努力,也難以獲得與檔案內(nèi)容和性質(zhì)相對應(yīng)的所有知識”[2]。另一方面,隨著數(shù)字轉(zhuǎn)型深入推進(jìn),未來的檔案將更多的以數(shù)字形態(tài)存在,大量結(jié)構(gòu)化與非結(jié)構(gòu)化的數(shù)字信息有待鑒定,人工鑒定模式將難以為繼。正如特里·庫克所言,“即使是專業(yè)的檔案工作者也很難承擔(dān)數(shù)量如此巨大的文件鑒定工作”[3],數(shù)字檔案鑒定工作已成為數(shù)字環(huán)境下檔案工作者面臨的巨大挑戰(zhàn)。
近年來,人工智能(下簡稱AI)技術(shù)的發(fā)展為包括數(shù)字檔案鑒定在內(nèi)的檔案管理走向自動化、智能化提供了無限可能。就國外而言,檔案、AI等領(lǐng)域的研究者圍繞人工智能在檔案領(lǐng)域的應(yīng)用前景、技術(shù)定位、分類模型、實(shí)踐效果等方面展開了研究,主要涉及機(jī)器學(xué)習(xí)、自然語言處理方法等AI技術(shù)在電子郵件自動歸檔[4-7],以及隱私和敏感信息的鑒定[8][9]等。就國內(nèi)而言,檔案學(xué)者主要聚焦于AI技術(shù)智能劃分?jǐn)?shù)字文書檔案保管期限[10]、不決定存毀的價值鑒定模式[11]、檔案文本自動分類系統(tǒng)設(shè)計(jì)[12]、檔案智能挑選和智能劃控[13]等,在理論和技術(shù)應(yīng)用上取得了一些研究成果,但是針對數(shù)字檔案特點(diǎn)且適用于AI技術(shù)的鑒定方法、鑒定模式、系統(tǒng)模型構(gòu)建等方面的研究還較少。實(shí)踐方面更多處于觀望階段,對AI技術(shù)的深度理解和應(yīng)用還有待提升和探索。
瑞士納沙泰爾州檔案館主導(dǎo)完成的ArchiSelect項(xiàng)目[14],針對大量復(fù)雜多樣的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)文件,通過傳統(tǒng)檔案鑒定理論和AI技術(shù)融合運(yùn)用,實(shí)現(xiàn)批量數(shù)字檔案的自動化鑒定。本文在分析該項(xiàng)目檔案智能鑒定的基本思路、鑒定指標(biāo)、技術(shù)路徑的基礎(chǔ)上,給出依托AI技術(shù)實(shí)現(xiàn)我國數(shù)字檔案智能鑒定的幾點(diǎn)思考。
ArchiSelect項(xiàng)目是瑞士納沙泰爾州檔案館和日內(nèi)瓦工商管理學(xué)院聯(lián)合完成的一項(xiàng)跨學(xué)科創(chuàng)新研究,旨在應(yīng)對檔案管理員在不了解數(shù)字檔案性質(zhì)和背景情況下,必須實(shí)施數(shù)字檔案鑒定的極端挑戰(zhàn),其在充分考慮各種場景、各種可能的情況下,尋求利用AI技術(shù)促進(jìn)檔案鑒定過程向智能化、自動化發(fā)展的解決方案,達(dá)到提升數(shù)字檔案鑒定效率的目的。
針對數(shù)量日趨龐大的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)和文件,ArchiSelect項(xiàng)目組設(shè)計(jì)了自頂向下的檔案鑒定模型軸和自底向上的數(shù)據(jù)挖掘軸,通過相應(yīng)的映射規(guī)則,將檔案價值衡量指標(biāo)和數(shù)據(jù)挖掘結(jié)果關(guān)聯(lián)比對,構(gòu)建智能化軟件模型,輔助檔案管理員完成數(shù)字檔案鑒定,如圖1所示。具體包括:(1)自頂向下的檔案鑒定模型軸,涵蓋傳統(tǒng)檔案鑒定理論知識,并利用定性方法確定檔案鑒定要素的評價機(jī)制。(2)自底向上的數(shù)據(jù)挖掘軸,利用AI技術(shù)實(shí)現(xiàn)所接收的文檔和數(shù)據(jù)的內(nèi)容、元數(shù)據(jù)等信息的識別、捕獲和采集,并對此過程進(jìn)行定量處理,以獲取數(shù)字檔案鑒定所需的真實(shí)數(shù)據(jù)。(3)映射規(guī)則,是將鑒定指標(biāo)和數(shù)據(jù)整合關(guān)聯(lián)并賦分的規(guī)則,以此形成智能化處置的依據(jù)。
1.2.1 自頂向下的檔案鑒定模型構(gòu)建
ArchiSelect項(xiàng)目系統(tǒng)梳理了不同地區(qū)、不同語言、不同標(biāo)準(zhǔn)規(guī)范的相關(guān)鑒定理論文獻(xiàn),對不同來源檔案的性質(zhì)和特點(diǎn)進(jìn)行了分析研究,在總結(jié)歐洲、北美和澳大利亞關(guān)于檔案鑒定自動化項(xiàng)目成果的基礎(chǔ)上,基于檔案鑒定理論和檔案的真實(shí)性、可靠性、完整性和可操作性等屬性,構(gòu)建了支撐整個項(xiàng)目的檔案鑒定理論框架。項(xiàng)目為判定結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)字檔案的潛在價值,設(shè)置了“維度—變量—衡量標(biāo)準(zhǔn)”三級檔案鑒定指標(biāo)。對接ISO 15489檔案管理標(biāo)準(zhǔn)有關(guān)屬性,項(xiàng)目設(shè)定了3個維度(一級指標(biāo))、42個變量(二級指標(biāo))和42個衡量標(biāo)準(zhǔn)(三級指標(biāo))。
維度層面。A r c h i S e l e c t 項(xiàng)目設(shè)置了可信度(trustworthiness)、可用性(exploitability)和表征性(representativeness)3個維度,其下分別設(shè)置了兩個層級更為細(xì)化的維度內(nèi)容,逐層細(xì)化,操作性逐層增強(qiáng)。(1)可信度,是用戶根據(jù)客觀事實(shí)判斷文檔的可信程度,主要依賴于文檔的可靠性、真實(shí)性和歷史痕跡3個第一層級維度內(nèi)容進(jìn)行判斷,并進(jìn)一步對應(yīng)細(xì)化為操作可追溯性、完整性、合法性,特征辨識、防篡改,職能行為可追溯性、稀缺性、相關(guān)性8個第二層級維度內(nèi)容。(2)可用性,是對文檔可以被利用程度的判斷,從技術(shù)可達(dá)性、認(rèn)知可達(dá)性和法律可達(dá)性3個第一層級維度內(nèi)容,以及其對應(yīng)的可訪問性、特征呈現(xiàn)、可讀性、密鑰長期可用性,可查找、可理解性,信息可獲取性7個第二層級維度內(nèi)容,判斷是否有保證檔案能正常讀取的軟硬件保障、是否有幫助了解認(rèn)知文檔的相關(guān)描述信息、是否存在知識產(chǎn)權(quán)和隱私保護(hù)。(3)表征性,是文檔在所屬機(jī)構(gòu)的代表性程度,從形成文檔的機(jī)構(gòu)背景和社會文化背景2個第一層級維度內(nèi)容進(jìn)行判斷,并通過形成者重要性、文檔重要性,內(nèi)容稀缺性、傳承和藝術(shù)價值5個第二層級維度內(nèi)容詮釋文檔在機(jī)構(gòu)的代表性。
變量層面。變量是判定數(shù)字檔案價值時賦分的對象,由鑒定維度進(jìn)一步細(xì)化而來。項(xiàng)目共設(shè)置了檔案遷移記錄、元數(shù)據(jù)完備性等42個變量[14],分別歸屬于3個維度的第二層級維度內(nèi)容。按照自動化標(biāo)準(zhǔn)、獨(dú)有性標(biāo)準(zhǔn)、文檔內(nèi)外屬性標(biāo)準(zhǔn)和成熟度標(biāo)準(zhǔn),將42個變量進(jìn)行分類。(1)自動化標(biāo)準(zhǔn),是能夠自動測量變量值的評判標(biāo)準(zhǔn),可分為全自動(完全可依靠計(jì)算機(jī)完成)、半自動(部分可依靠計(jì)算機(jī)完成)、條理化的人工判斷(人工可根據(jù)體系的、條理的依據(jù)進(jìn)行判斷)、人工主觀判斷(無依據(jù)可循,完全依靠人工主觀意志來判斷)。(2)獨(dú)有性標(biāo)準(zhǔn),也稱排他性標(biāo)準(zhǔn),是指變量的專有性,表明該變量是屬于某個維度獨(dú)有,還是幾個維度共有。(3)文檔內(nèi)外屬性標(biāo)準(zhǔn),是用于區(qū)分測量的某個變量是屬于文件和數(shù)據(jù)集內(nèi)在還是外部的,是形成時產(chǎn)生的還是使用時產(chǎn)生的。(4)成熟度標(biāo)準(zhǔn),是檔案管理和適用性的成熟程度,可由低到高按照“變量與檔案管理的成熟度無關(guān)”“數(shù)據(jù)集或文件沒有做任何處理”“對部分?jǐn)?shù)據(jù)集或文件進(jìn)行了標(biāo)識和處理”“文件已按照歸檔程序進(jìn)行了歸檔處理”分為4個層次的成熟度,并依次以百分比標(biāo)記成熟度值為“0、25%、50%、100%”。如,三級維度“可理解性”所屬變量“創(chuàng)建背景描述”,可按照“無可用信息”“有文檔創(chuàng)建背景信息”“有完整的文檔創(chuàng)建的背景信息,并與其他文檔材料(指導(dǎo)方針、策略、法律、規(guī)則等)相關(guān)聯(lián)”由低到高判定變量的成熟度。
衡量標(biāo)準(zhǔn)層面。衡量標(biāo)準(zhǔn)與變量密切相關(guān),是對變量實(shí)現(xiàn)可操作化的具體描述,是用來測量相關(guān)變量應(yīng)對不同的實(shí)際情況得出不同結(jié)果的判斷標(biāo)準(zhǔn)。ArchiSelect項(xiàng)目中設(shè)置了與變量對應(yīng)的42個衡量標(biāo)準(zhǔn),保證每個變量至少有一個衡量標(biāo)準(zhǔn)與之對應(yīng)。如,“元數(shù)據(jù)完備性”是第二層級維度內(nèi)容“完整性”對應(yīng)的一個變量,該變量所對應(yīng)的衡量標(biāo)準(zhǔn)是“是否能獲得鑒定該文件所有所需的元數(shù)據(jù)”,具體描述了“元數(shù)據(jù)完備性”這一變量的賦分標(biāo)準(zhǔn)。自動化操作程度高的衡量標(biāo)準(zhǔn)更易于實(shí)現(xiàn)檔案價值的判定向定量化轉(zhuǎn)換。
ArchiSelect項(xiàng)目中所有的維度、變量和衡量標(biāo)準(zhǔn)都是可擴(kuò)展的,且可以根據(jù)需要進(jìn)行完善更新,從而形成“維度—變量—衡量標(biāo)準(zhǔn)”三級檔案鑒定模型的指標(biāo)體系。項(xiàng)目組建議優(yōu)先選擇可高度自動化執(zhí)行的變量,再考慮選用無需高成熟度的變量,兼顧與鑒定相關(guān)程度高的變量以及機(jī)構(gòu)特殊需求相關(guān)的變量,從而構(gòu)建檔案鑒定模型。
1.2.2 自底向上的數(shù)據(jù)分析方法
ArchiSelect項(xiàng)目基于納沙泰爾州檔案館的原始數(shù)據(jù)DataOAEN數(shù)據(jù)集,著重從數(shù)據(jù)的多樣性、容量、顆粒度、處理可能性等角度展開深度分析。項(xiàng)目組開發(fā)設(shè)計(jì)了文檔預(yù)處理、文檔分析、文檔檢索、決策模型構(gòu)建與機(jī)器學(xué)習(xí)、系統(tǒng)配置管理等主要功能以及33項(xiàng)具體功能,主要解決自動化鑒定過程中的真實(shí)數(shù)據(jù)來源問題。
項(xiàng)目組充分利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、命名實(shí)體識別、相似度計(jì)算等AI技術(shù)和算法,對應(yīng)鑒定模型變量內(nèi)容,獲取結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)字文件和數(shù)據(jù)集中對鑒定有用的信息,以滿足自動化、智能化鑒定的需要。主要做了以下嘗試:一是利用開源工具Tika,從不同的數(shù)字文檔分析其格式、檢測提取元數(shù)據(jù)和識別文本內(nèi)容,形成全文檢索,并通過分析各相關(guān)要素生成對于不同內(nèi)容要素的信息統(tǒng)計(jì);二是利用命名實(shí)體識別(Named Entity Recognition,簡稱NER)技術(shù),識別出DataOAEN數(shù)據(jù)集中人名、機(jī)構(gòu)名、地名、活動和日期等實(shí)體信息內(nèi)容,并以可視化詞云的形式呈現(xiàn)結(jié)果;三是利用相似度計(jì)算,探尋特定賬戶下電子郵件的相似性,創(chuàng)建了電子郵件主題和附件文檔之間的關(guān)聯(lián)線索,根據(jù)事件發(fā)展串聯(lián)起了事件發(fā)展各階段形成的文檔;四是利用機(jī)器學(xué)習(xí)算法,基于來自檔案館DataOAEN、谷歌、公共實(shí)體的3個不同訓(xùn)練集,對DataOAEN數(shù)據(jù)集中的會議文件進(jìn)行自動鑒定準(zhǔn)確性測試,結(jié)果顯示隨著訓(xùn)練集中會議文件占的比重越大,測試結(jié)果的準(zhǔn)確率就越高。
1.2.3 檔案鑒定指標(biāo)與數(shù)據(jù)的結(jié)合
為了實(shí)現(xiàn)數(shù)字檔案的自動化鑒定,ArchiSelect項(xiàng)目設(shè)計(jì)了一個軟件工具,通過逐一映射將檔案鑒定模型中的各個變量與利用數(shù)據(jù)挖掘等方法得到的數(shù)據(jù)進(jìn)行匹配,并根據(jù)映射規(guī)則對匹配程度進(jìn)行賦分。如,“可信度”的第二層級維度內(nèi)容“完整性”,在對其所屬的“元數(shù)據(jù)完備性”這一變量賦分時,可設(shè)定映射規(guī)則:“元數(shù)據(jù)中至少包括日期和作者兩項(xiàng)信息”得1分、“元數(shù)據(jù)中至少包括日期或作者中的一項(xiàng)信息”得0.5分、“沒有日期或作者信息”得0分;對于每個變量,可根據(jù)自身特點(diǎn)設(shè)定映射規(guī)則進(jìn)行賦分;通過統(tǒng)計(jì)各變量的賦分總和,形成輔助檔案管理人員完成數(shù)字檔案自動化鑒定的依據(jù)。
這里的數(shù)據(jù)主要有兩種來源,一種是利用AI技術(shù)對文檔原始數(shù)據(jù)進(jìn)行自底向上分析挖掘得到的,包括格式、內(nèi)容、元數(shù)據(jù)、系統(tǒng)信息等;另一種來自于外部系統(tǒng),這部分?jǐn)?shù)據(jù)來自文件歸檔計(jì)劃、數(shù)字文件系統(tǒng)等。
ArchiSelect項(xiàng)目擺脫了人類僅利用傳統(tǒng)鑒定理論無法完成未來海量數(shù)字檔案鑒定的窘境,也避免因過度依賴AI技術(shù),數(shù)字檔案的價值完全交由機(jī)器來判定,脫離人類經(jīng)驗(yàn)和認(rèn)知而導(dǎo)致“失控”狀態(tài)。通過傳統(tǒng)鑒定理論與AI技術(shù)的結(jié)合運(yùn)用,減少AI技術(shù)造成的偏差、偏見,降低AI技術(shù)算法因黑箱、算法歧視、數(shù)據(jù)隱私等不確定因素造成的不信任感,解決人工智能可信監(jiān)管難題。面對廣闊復(fù)雜的社會背景和海量的數(shù)字檔案,檔案工作者必須考慮檔案專業(yè)理論與AI技術(shù)的高度融合,更加準(zhǔn)確高效地完成數(shù)字檔案鑒定。既要充分利用AI技術(shù)(特別是機(jī)器學(xué)習(xí)),在遵循既定規(guī)則的基礎(chǔ)上,從測試中不斷歸納數(shù)字檔案共性以完成鑒定;又要以共性反哺既定規(guī)則,完善和發(fā)展檔案鑒定規(guī)則以獲取更準(zhǔn)確的鑒定結(jié)果。
模塊化、可擴(kuò)展性的數(shù)字檔案智能鑒定模型,更有利于推廣和應(yīng)用。ArchiSelect項(xiàng)目所設(shè)定的42個鑒定變量,可針對不同鑒定對象,選擇符合鑒定對象需求的鑒定變量,靈活組成相應(yīng)鑒定模型。一方面,對于不同的立檔單位、不同類型的數(shù)字檔案,ArchiSelect項(xiàng)目這種變量模塊化組合的方式,使得鑒定模型的針對性和適用性更強(qiáng),更好地發(fā)揮AI技術(shù)的作用,鑒定結(jié)果也更加準(zhǔn)確。另一方面,鑒定理論一直在隨著時代的前進(jìn)而發(fā)展,鑒定模型的可擴(kuò)展性充分考慮到了未來鑒定理論可能發(fā)生的變化,并為應(yīng)對這種變化預(yù)留了“接口”,可根據(jù)需要通過擴(kuò)展鑒定變量的方式,優(yōu)化完善鑒定模型,滿足未來的鑒定需要。
盡管ArchiSelect項(xiàng)目對AI技術(shù)進(jìn)行了深度應(yīng)用并在鑒定方面獲得了較好的成果,但是在法律和倫理層面,對于AI技術(shù)的應(yīng)用還有不少爭議,還缺少法律對AI技術(shù)在檔案領(lǐng)域應(yīng)用的支撐和倫理道德上的規(guī)范。一方面,如果在檔案鑒定過程中,出現(xiàn)檔案價值判斷錯誤,導(dǎo)致隱私或敏感信息泄露等問題,應(yīng)由誰來承擔(dān)法律責(zé)任?另一方面,人工智能將檔案鑒定工作從人文理性推向技術(shù)理性,如果任由這種技術(shù)理性“自由開放式”發(fā)展,人類歷史的記錄交由算法來決定存毀,顯然這是人類無法接受的,也有悖于人類創(chuàng)造發(fā)展人工智能的初衷。因此,從國際人工智能和檔案鑒定工作的研究現(xiàn)狀來看,雖然已經(jīng)取得了很大進(jìn)展,但大量工作停留在實(shí)驗(yàn)層面,并未在實(shí)踐中得到廣泛應(yīng)用。更多的工作應(yīng)該集中在通過開發(fā)更強(qiáng)大的倫理框架和更好地理解人工智能對檔案工作的影響上,以提高對AI技術(shù)的信任,提升檔案工作者對于人工智能的信心,積極促使人工智能理論成果向指導(dǎo)檔案鑒定實(shí)踐轉(zhuǎn)化。同時,也需要針對AI技術(shù)的應(yīng)用進(jìn)行立法,明確相應(yīng)的法律責(zé)任,規(guī)范AI技術(shù)的應(yīng)用,規(guī)避當(dāng)前AI技術(shù)發(fā)展帶來的潛在法律風(fēng)險和倫理道德問題。
ArchiSelect項(xiàng)目是檔案與人工智能領(lǐng)域合作的產(chǎn)物,是兩大領(lǐng)域研究者智慧的結(jié)晶,也是當(dāng)下最常見的一種合作模式。然而,現(xiàn)階段大部分檔案工作者對AI技術(shù)還停留在淺層次的了解與學(xué)習(xí)上,懂得AI技術(shù)的研究者對檔案工作的內(nèi)在機(jī)理又不甚了解,可能會導(dǎo)致其無法選擇運(yùn)用最合適的技術(shù)手段滿足檔案工作者的需求。隨著AI技術(shù)在檔案領(lǐng)域的廣泛深入應(yīng)用,檔案工作者需要依托人工智能來處理業(yè)務(wù),提升服務(wù)質(zhì)量和效率。這就要求檔案工作者不僅要掌握檔案相關(guān)理論,更要深入學(xué)習(xí)掌握各AI技術(shù)發(fā)展?fàn)顩r和技術(shù)原理,提升檔案工作者的技術(shù)能力,實(shí)現(xiàn)向“理技兼通”的綜合性高素質(zhì)檔案管理人才轉(zhuǎn)型。轉(zhuǎn)型的關(guān)鍵在于對檔案工作者的人工智能培訓(xùn)。國外檔案學(xué)者提出一種全新的跨領(lǐng)域?qū)W科計(jì)算檔案學(xué),并指出計(jì)算檔案學(xué)能將計(jì)算機(jī)方法和資源應(yīng)用于大型文件檔案處理、分析、存儲、長久保存和利用,目標(biāo)是提高檔案鑒定、整理、著錄、長久保存和利用的效率、效果和準(zhǔn)確度。該學(xué)科強(qiáng)調(diào)的是將以人工智能為代表的計(jì)算機(jī)科學(xué)和檔案學(xué)科進(jìn)行有機(jī)結(jié)合。當(dāng)然,人工智能的研究也強(qiáng)調(diào)檔案工作跨學(xué)科交流在未來的重要性。檔案工作者應(yīng)與數(shù)字人文主義者加強(qiáng)合作,利用人工智能技術(shù)創(chuàng)建和部署適合的檔案鑒定解決方案,還應(yīng)與計(jì)算機(jī)科學(xué)家共同思考人工智能對檔案鑒定工作的影響。未來,只有成為“理技兼通”的綜合性高素質(zhì)檔案管理人才,才可以更快、更準(zhǔn)確地找到AI技術(shù)與數(shù)字檔案鑒定工作結(jié)合的切入點(diǎn)。