福建省檔案局、檔案館項(xiàng)目組
習(xí)近平總書記對檔案工作作出的重要批示為推動檔案事業(yè)高質(zhì)量創(chuàng)新發(fā)展提供了根本遵循。新修訂《中華人民共和國檔案法》第二十七條規(guī)定“縣級以上各級檔案館的檔案,應(yīng)當(dāng)自形成之日起滿二十五年向社會開放”?!秶覚n案館檔案開放辦法》進(jìn)一步明確“自形成之日起滿二十五年的國家檔案館的檔案,經(jīng)開放審核后無需限制利用的應(yīng)當(dāng)及時(shí)向社會開放”?!丁笆奈濉比珖鴻n案事業(yè)發(fā)展規(guī)劃》對加快推進(jìn)檔案開放工作提出具體要求,并要求“加強(qiáng)大數(shù)據(jù)、人工智能等新一代信息技術(shù)在數(shù)字檔案館(室)建設(shè)中的應(yīng)用”。近年來,福建省檔案館總結(jié)檔案開放審核工作經(jīng)驗(yàn),梳理分析館藏檔案開放審核工作現(xiàn)狀,充分利用館藏檔案數(shù)字化成果,結(jié)合人工智能技術(shù),開發(fā)了“基于數(shù)字檔案的人工智能輔助檔案開放審核系統(tǒng)”,通過系統(tǒng)輔助進(jìn)行檔案開放審核,已完成了100萬件檔案的開放審核任務(wù),預(yù)計(jì)在“十四五”末將全部完成館藏自形成之日起滿二十五年檔案開放審核工作。
當(dāng)前,我國各級國家綜合檔案館館藏檔案數(shù)量急速增長。隨著檔案信息化建設(shè)的推進(jìn),存量紙質(zhì)檔案數(shù)字化率逐年提升,增量電子檔案接收逐漸常態(tài)化,海量檔案數(shù)據(jù)的開放審核成為制約檔案共享利用的瓶頸。以福建省檔案館為例,預(yù)計(jì)至“十四五”末,館藏自形成之日起滿二十五年的檔案將達(dá)320萬件。如何在時(shí)間短、人手少、任務(wù)重的情況下保質(zhì)保量完成開放審核工作任務(wù),是提升檔案工作對外開放服務(wù)水平的難點(diǎn)。
為探索一條走出檔案開放審核困境的新路子,項(xiàng)目組深入研究檔案開放審核工作發(fā)展歷程、現(xiàn)狀和急需解決的現(xiàn)實(shí)問題,尋找解決思路和辦法。福建省檔案館2020年之前檔案開放審核工作大致分為兩個(gè)發(fā)展階段:傳統(tǒng)開放審核階段和信息系統(tǒng)輔助開放審核階段。
傳統(tǒng)開放審核工作(其前身為解密劃控、開放鑒定)的對象主要是實(shí)體檔案和各類目錄,經(jīng)“三審”(即初審、復(fù)審、終審)形成檔案開放審核成果,報(bào)同級檔案主管部門審批后,再以一定的形式向社會公布。
主要工作流程有:根據(jù)工作計(jì)劃,檔案開放審核人員通過內(nèi)部調(diào)卷調(diào)出檔案實(shí)體,對照案卷目錄和文件目錄,逐卷逐件逐頁審核,形成初審意見,提交開放審核管理人員復(fù)審;復(fù)審人員再次對照檔案實(shí)體和目錄對初審意見進(jìn)行審核,出具復(fù)審意見,報(bào)鑒定工作委員會委員終審;各終審委員會委員同樣要先調(diào)取檔案實(shí)體,再逐卷逐件逐頁核對初審、復(fù)審意見,提出終審意見,報(bào)館檔案鑒定工作委員會會議研究確定;最終依據(jù)審核結(jié)果形成檔案開放控制意見,經(jīng)鑒定工作委員會主任(一般由館主要領(lǐng)導(dǎo)兼任)簽批后報(bào)同級檔案主管部門審批。
可見,傳統(tǒng)的檔案開放審核工作不僅耗時(shí)長、臺賬多、安全隱患多,且工作人員對開放審核標(biāo)準(zhǔn)的理解和判斷可能存在偏差,容易引起爭議。但這一階段的檔案開放審核工作扎實(shí)有力,形成了開放審核一般工作規(guī)則和流程,積累了一定數(shù)量的敏感詞、語句、控制規(guī)則和案例樣本,為人工智能輔助開放審核系統(tǒng)的研發(fā)打下了堅(jiān)實(shí)基礎(chǔ)。
隨著信息技術(shù)在檔案部門的應(yīng)用和發(fā)展,福建省檔案館檔案開放審核工作由“純手動模式”轉(zhuǎn)入“半自動模式”。2012年,基于館藏檔案文件級目錄和少量數(shù)字化副本,開發(fā)了檔案鑒定信息系統(tǒng);2016年,對系統(tǒng)進(jìn)行改造升級,引入敏感詞輔助開展檔案開放審核工作,在開放審核的質(zhì)量和效率方面取得一定突破。
該階段,系統(tǒng)首先通過關(guān)鍵詞或敏感詞在目錄系統(tǒng)中標(biāo)引并高亮顯示,對每件檔案開放或控制進(jìn)行提示,輔助人工審核,提升開放審核工作效率。其次,系統(tǒng)在開放審核各環(huán)節(jié)清晰留痕,并可根據(jù)需要生成相應(yīng)報(bào)表,取代原有的手工臺賬,工作人員不需要再進(jìn)行繁瑣的標(biāo)記,可以專注于開放審核業(yè)務(wù)工作。再次,通過系統(tǒng)形成了以檔案鑒定工作委員會統(tǒng)籌、檔案開放審核工作組主要落實(shí)的工作機(jī)制,相較于之前的舉全館之力大規(guī)模開展檔案開放審核工作的“大兵團(tuán)作戰(zhàn)”模式,檔案開放審核的工作流程更加規(guī)范、科學(xué)、合理,工作質(zhì)量和效率有了明顯提升。
雖然這一階段的檔案開放審核工作取得了較大進(jìn)步,但仍存在以下問題:一是工作對象仍以檔案實(shí)體為主。檔案鑒定信息系統(tǒng)未將檔案數(shù)字化成果充分應(yīng)用到開放審核工作中,僅用系統(tǒng)替代原來的紙質(zhì)目錄功能,用敏感詞在電子目錄上標(biāo)注提醒,仍需工作人員調(diào)閱檔案實(shí)體,通過審閱原文進(jìn)行開放審核,影響工作效率,存在檔案實(shí)體安全隱患。二是檔案鑒定信息系統(tǒng)輔助提醒功能較為呆板。雖然通過建立關(guān)鍵詞庫并對敏感詞進(jìn)行高亮標(biāo)注,為開放審核提供了提醒功能,提高了工作效率,但由于敏感詞不完善,且存在斷章取義等情況,常常出現(xiàn)誤判。三是未實(shí)現(xiàn)全流程管理。鑒定信息系統(tǒng)為單機(jī)版,開放審核經(jīng)初審、復(fù)審后,成果需人工從系統(tǒng)中導(dǎo)出,刻錄光盤后與審核臺賬一并提交終審,終審意見也同樣只能以線下的模式呈送下一環(huán)節(jié),無法實(shí)現(xiàn)開放審核全流程線上運(yùn)轉(zhuǎn)。
項(xiàng)目組總結(jié)了前兩個(gè)階段檔案開放審核工作經(jīng)驗(yàn),針對急需解決的問題,提出充分利用近年來福建省檔案館館藏檔案數(shù)字化成果(數(shù)字化率近100%),運(yùn)用人工智能技術(shù)進(jìn)一步提升檔案開放審核系統(tǒng)輔助功能,進(jìn)而大幅度提高工作質(zhì)量和效率,解決檔案工作中這一卡脖子難題的工作思路。經(jīng)過調(diào)研和反復(fù)實(shí)踐,項(xiàng)目組實(shí)現(xiàn)了“四個(gè)一”的建設(shè)目標(biāo),即研究梳理“一”個(gè)規(guī)范的系統(tǒng)流程、研究制定“一”個(gè)開放審核檔案關(guān)鍵詞表、研究訓(xùn)練“一”個(gè)人工智能審核算法模型、研究開發(fā)“一”套基于數(shù)字檔案的人工智能檔案開放審核系統(tǒng)。
項(xiàng)目組在總結(jié)了前兩個(gè)階段檔案開放審核工作經(jīng)驗(yàn)的基礎(chǔ)上,研究梳理了規(guī)范的檔案開放審核系統(tǒng)流程,覆蓋館內(nèi)檔案開放審核工作全流程,預(yù)留檔案形成單位或者移交單位接口,可實(shí)現(xiàn)檔案開放審核“會同機(jī)制”下的各形成單位或移交單位線上審核。目前,人工智能輔助檔案開放審核系統(tǒng)流程如下(見42頁左上圖)。
步驟一:將待審核的檔案導(dǎo)入系統(tǒng)中的“待開放審核檔案庫”,經(jīng)“智能分庫/敏感詞標(biāo)注”后系統(tǒng)自動劃分為“擬涉密庫”“擬非密控制庫”“待定庫”“擬開放庫”四個(gè)庫,并對檔案目錄和原文進(jìn)行敏感詞自動高亮標(biāo)注。
步驟二:管理人員采用自動或手動方式進(jìn)行審核任務(wù)分配,支持按卷或按件分配各初審員,同時(shí)支持分配任務(wù)轉(zhuǎn)移功能,靈活掌握批次任務(wù)動態(tài)。
步驟三:初審員根據(jù)系統(tǒng)主動推送數(shù)字檔案開放和控制程度的匹配度推薦值,對所接受分配的檔案進(jìn)行初審,同時(shí)也可通過敏感詞高亮提醒對檔案目錄和原文進(jìn)行審核。根據(jù)初審結(jié)果,形成“涉密檔案庫”“非密控制檔案庫”“一般開放庫”“公布開放庫”,并發(fā)送復(fù)審員。
步驟四:復(fù)審員復(fù)審。其中“涉密檔案庫”和“非密控制檔案庫”可采用抽查的方式進(jìn)行復(fù)審,也可100%全查;“一般開放庫”和“公布開放庫”則默認(rèn)逐件全部復(fù)審,復(fù)審結(jié)束后即可將結(jié)果提交檔案鑒定工作委員會委員進(jìn)行終審。
步驟五:檔案鑒定工作委員會委員根據(jù)復(fù)審意見,直接在系統(tǒng)中進(jìn)行終審,并形成最終審核意見。
步驟六:全流程臺賬留痕報(bào)表直接生成,可直接提交檔案鑒定工作委員會會議議定。
項(xiàng)目組按照國家和福建省有關(guān)文件規(guī)定,對館藏不同全宗檔案進(jìn)行深入調(diào)查摸底,收集整理了近600個(gè)敏感詞,聯(lián)動省公安廳網(wǎng)安部門吸收了部分當(dāng)前網(wǎng)絡(luò)敏感關(guān)鍵字詞,設(shè)計(jì)制定了開放審核檔案關(guān)鍵詞表,建立了檔案開放審核動態(tài)管理敏感詞庫。系統(tǒng)在初審、復(fù)審環(huán)節(jié)中自動感應(yīng)敏感詞庫,在目錄和原文中進(jìn)行高亮標(biāo)注,并在原文右側(cè)按降序顯示敏感詞詞表和詞頻,可通過點(diǎn)擊詞頻自動跳轉(zhuǎn)定位至敏感詞處,輔助提醒各環(huán)節(jié)審核人員開展工作,為開放審核工作提供定量參考依據(jù),極大提高了開放審核的效率。另外敏感詞庫采用動態(tài)開放式管理,可根據(jù)不同全宗、不同類型檔案的實(shí)際情況或者檔案館的需求進(jìn)行增刪改,同時(shí)還可形成關(guān)鍵詞頻率大數(shù)據(jù),進(jìn)而推動人工智能發(fā)展。
通過OCR識別和NLP數(shù)據(jù)化處理,課題組構(gòu)建了能夠滿足當(dāng)前福建省檔案館開放審核要求的模型,開放審核模型訓(xùn)練、測試和迭代更新算法工作流程圖如下(見42頁右下圖)。
一是將已開放審核的檔案數(shù)字化成果導(dǎo)入系統(tǒng),通過底色處理、去除印章等圖像處理后進(jìn)行OCR識別,并對識別的文字版面進(jìn)行分析,結(jié)合NLP(自然語言處理),按照行、段落的格式類型進(jìn)行數(shù)據(jù)化處理。
二是對數(shù)據(jù)化處理的識別準(zhǔn)確率較高的數(shù)據(jù)進(jìn)行模型訓(xùn)練,將其中的大部分?jǐn)?shù)據(jù)輸入模型中進(jìn)行訓(xùn)練,并對訓(xùn)練好的模型通過剩余的數(shù)據(jù)進(jìn)行預(yù)測準(zhǔn)確率測試,預(yù)測準(zhǔn)確率達(dá)到預(yù)期值以上時(shí)即認(rèn)為模型訓(xùn)練成功,否則需要調(diào)整模型算法直至達(dá)到預(yù)期值。
三是運(yùn)用訓(xùn)練成功的模型,對需開放審核的數(shù)字檔案進(jìn)行預(yù)測,如發(fā)現(xiàn)預(yù)測有誤差要定期對模型進(jìn)行迭代學(xué)習(xí),以達(dá)到開放審核模型的迭代更新需求。
經(jīng)過多輪數(shù)據(jù)訓(xùn)練測試,最終形成適用于檔案文本領(lǐng)域的審核開放、控制類分類模型。該模型基于文本自動校正預(yù)處理、文本數(shù)據(jù)挖掘技術(shù)TF-IDF算法、貝葉斯分類算法模型進(jìn)行分類,在OCR識別準(zhǔn)確率能基本保證的情況下,控制類預(yù)測準(zhǔn)確率接近100%,開放類預(yù)測準(zhǔn)確率接近60%,整體預(yù)測準(zhǔn)確率約80%,經(jīng)過迭代學(xué)習(xí)后預(yù)測準(zhǔn)確率可達(dá)90%,算法模型速度快、部署容易、效率高。同時(shí)系統(tǒng)還將采用基于神經(jīng)網(wǎng)絡(luò)的ERNIE模型作為分類器的預(yù)訓(xùn)練模型進(jìn)行優(yōu)化,進(jìn)一步提高預(yù)測準(zhǔn)確率。
結(jié)合原有檔案開放審核工作系統(tǒng)和工作流程,運(yùn)用人工智能審核算法模型,經(jīng)過反復(fù)實(shí)踐調(diào)優(yōu),開發(fā)出一套全流程智能化審核系統(tǒng),成為檔案開放審核工作提質(zhì)增效的可靠幫手。
基于數(shù)字檔案的人工智能開放審核系統(tǒng)于2021年12月全面投入福建省檔案館檔案開放審核工作,系統(tǒng)吸收了各階段檔案開放審核工作經(jīng)驗(yàn),實(shí)現(xiàn)了檔案開放審核全流程在線處理、智能統(tǒng)計(jì)分析關(guān)鍵詞大數(shù)據(jù)、按用戶需求生成各類報(bào)表臺賬、智慧化人機(jī)交互、適應(yīng)各平臺數(shù)據(jù)對接轉(zhuǎn)化,解決了原來檔案開放審核工作需要調(diào)閱檔案實(shí)體與各類目錄、過程留痕管理缺失等問題,將開放審核從“半自動模式”升級為“全智能模式”。系統(tǒng)的主要功能優(yōu)勢如下。
一是實(shí)現(xiàn)開放審核工作全流程在線管理。檔案開放審核工作建立在已數(shù)字化檔案的基礎(chǔ)上,配合使用智能系統(tǒng),可以直接在系統(tǒng)中查看檔案目錄及原文、選定開放或控制選項(xiàng)、標(biāo)記控制的原因等。對照傳統(tǒng)開放審核,在流程上省去了調(diào)、歸檔案實(shí)體卷和手工登記臺賬的步驟,避免了對檔案實(shí)體的二次損傷和手工登記過程中可能出現(xiàn)的失誤。
二是實(shí)現(xiàn)開放審核工作任務(wù)可定制可追蹤。智能系統(tǒng)可以按照實(shí)際需求,將一個(gè)全宗、一個(gè)批次任務(wù)智能分配成多個(gè)子任務(wù)、分配至各個(gè)審核員的賬號中,可以讓更多人參與其中,使工作更具靈活性。
三是實(shí)現(xiàn)開放審核工作人員管控和臺賬留痕管理。系統(tǒng)中設(shè)置有初審員、復(fù)審員、終審員三個(gè)環(huán)節(jié),讓每一批次數(shù)據(jù)都經(jīng)過層層審核。特別是在已控制檔案的審核過程中,下一級審核員可以看到上一級審核員對檔案劃控的依據(jù)所做的標(biāo)記,不用逐頁審核,可提高效率,保證最終的準(zhǔn)確性和各環(huán)節(jié)留痕記錄。
四是實(shí)現(xiàn)敏感詞的“雙提醒”功能。智能系統(tǒng)中敏感詞在檔案目錄上及檔案原文中的高亮提示,起到了很好的輔助作用,人工審核員在查看原文時(shí)可以重點(diǎn)查看提示部分,避免遺漏。
五是實(shí)現(xiàn)人工智能預(yù)測及自動分庫。能對OCR識別率高的數(shù)字檔案進(jìn)行AI智能預(yù)測及自動分庫,即在開放審核前即根據(jù)人工智能開放審核結(jié)果預(yù)分為擬開放庫、擬控制庫等。自動分庫對審核員較準(zhǔn)確的提示效用,可以指定人員專門審核開放庫或控制庫,短期內(nèi)提高開放庫或控制庫審核人員業(yè)務(wù)熟練程度,同時(shí)簡化了審核人員培訓(xùn)流程。
一是研究對象適應(yīng)了新形勢發(fā)展。檔案工作新形勢發(fā)展勢必以電子檔案、數(shù)字檔案爆發(fā)式增長為主要依托,有別于傳統(tǒng)載體檔案,基于數(shù)字檔案的成果應(yīng)用已經(jīng)在改變著檔案界的傳統(tǒng)工作。本課題選取了檔案開放審核這一傳統(tǒng)的檔案工作來研究,創(chuàng)新之處在于此項(xiàng)工作之前的研究應(yīng)用對象是傳統(tǒng)載體,而從今往后,檔案開放審核的研究對象更多的是各綜合檔案館檔案數(shù)字化成果和常規(guī)接收的電子檔案,進(jìn)而可能是數(shù)據(jù)化的數(shù)字檔案,因此課題在研究對象上具有創(chuàng)新意義。
二是研究模式結(jié)合了新技術(shù)發(fā)展。課題創(chuàng)造性地將檔案傳統(tǒng)工作與人工智能技術(shù)相結(jié)合,通過應(yīng)用智能輔助系統(tǒng),全面提高了工作效率。以福建省檔案館為例,通過應(yīng)用課題研究成果,按照目前已完成的開放審核數(shù)量測算,人工智能輔助開放審核極大地提升了檔案開放審核工作效率。
三是研究成果滿足了新發(fā)展要求。課題研究過程結(jié)合了大量的實(shí)際工作成果,通過研究成果結(jié)合技術(shù)應(yīng)用,突破了檔案開放審核業(yè)務(wù)瓶頸,為檔案館數(shù)字化工作轉(zhuǎn)型提供了一個(gè)應(yīng)用場景、一個(gè)技術(shù)應(yīng)用方案、一個(gè)成熟工作案例,滿足了當(dāng)前檔案工作發(fā)展的要求。該研究成果可復(fù)制可推廣,特別是總結(jié)出“四個(gè)一”成果可以進(jìn)一步推廣。
綜上,項(xiàng)目組立足福建省檔案館館藏檔案數(shù)字化成果和檔案開放審核工作經(jīng)驗(yàn),結(jié)合人工智能技術(shù),形成了一套基本適合各級國家綜合檔案館開展檔案開放審核的工作模式,研發(fā)了一套滿足各級國家綜合檔案館的檔案智能開放審核系統(tǒng),對于各級國家綜合檔案館開展檔案開放審核工作,提升檔案開放審核工作的效率有一定的參考作用。