摘 要:人工智能時(shí)代,AI參與電子文件管理的范圍和深度不斷擴(kuò)展,電子文件管理不僅要面向各類人群的需要,也要適應(yīng)人工智能的邏輯和需求,由此引發(fā)千百年來(lái)為人類保管和提供利用文件檔案的管理體系發(fā)生某些底層邏輯、原理和方法的變化,包括文件檔案數(shù)據(jù)及其治理的內(nèi)涵、收管范圍、分類標(biāo)注等,進(jìn)而引發(fā)有關(guān)理論、方法和技術(shù)的歷史性重塑。
關(guān)鍵詞:電子文件管理;檔案數(shù)據(jù);人工智能
分類號(hào):G276
今年的電子文件管理年會(huì)在合肥召開,我想當(dāng)?shù)氐臋n案工作者應(yīng)該會(huì)有一些感慨。中國(guó)電子文件管理啟動(dòng)之初,安徽省檔案館是先頭部隊(duì),當(dāng)時(shí)還是副局長(zhǎng)的黃玉明借鑒澳大利亞維多利亞州電子文件管理策略(VERS)主持開發(fā)了檔案行業(yè)標(biāo)準(zhǔn)《文書類電子文件元數(shù)據(jù)方案》,并先期啟動(dòng)安徽省檔案館的電子文件管理系統(tǒng)建設(shè)和管理實(shí)踐,最早嘗試用封裝方法保證電子文件的真實(shí)、完整、可靠、可用。那時(shí)世界各國(guó)檔案界的目標(biāo)主要錨定在保存電子文件的原本狀態(tài)存在。不過十幾年時(shí)間,電子文件在以非結(jié)構(gòu)化文件為主體的基礎(chǔ)上大范圍接納了各項(xiàng)社會(huì)活動(dòng)中形成的半結(jié)構(gòu)化、結(jié)構(gòu)化數(shù)據(jù),運(yùn)用AI進(jìn)行管理的探索不斷涌現(xiàn),電子文件管理的細(xì)顆?;椭悄芑瘎?shì)頭日益強(qiáng)勁,賦能國(guó)家經(jīng)濟(jì)社會(huì)發(fā)展的思想也逐漸明朗,表明了電子文件管理理念和思路的時(shí)代演變與進(jìn)化。
變化是這個(gè)時(shí)代的符號(hào),既快又多還激烈,新問題層出不窮,“未來(lái)已來(lái)”表明預(yù)言轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)的節(jié)奏正在加快。去年年會(huì)我提出了一些向大家討教的問題,今年還想說3個(gè)比較基礎(chǔ)的問題,為大家面向現(xiàn)實(shí)和不遠(yuǎn)的未來(lái),面向人群和AI的電子文件管理思想和實(shí)踐交流增添一點(diǎn)話題。
1 關(guān)于檔案數(shù)據(jù)治理是什么?
前不久看到代國(guó)輝研究員發(fā)布的一則視頻提出這個(gè)問題,實(shí)質(zhì)上問的是什么是檔案數(shù)據(jù)。他列舉了5種概念,問大家認(rèn)同哪一個(gè):第一種是指檔案業(yè)務(wù)數(shù)據(jù)治理。第二種指數(shù)據(jù)治理延伸到歸檔之后的檔案階段,他認(rèn)為這兩種本質(zhì)上是數(shù)據(jù)治理。第三種是數(shù)據(jù)類檔案,特別是結(jié)構(gòu)化數(shù)據(jù)的治理。第四種是用數(shù)據(jù)治理的方法論優(yōu)化檔案管理,他認(rèn)為這兩條本質(zhì)上是檔案治理。第五種指檔案和數(shù)據(jù)一體化,即結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的融合治理。這是個(gè)有趣的問題,值得大家分析琢磨。在我看來(lái),它們各有面向,又交叉重疊,并非非此即彼,這幾種看法讓我們看到了檔案數(shù)據(jù)及其治理的不同側(cè)面或維度,不同切入點(diǎn)和著力點(diǎn),很有意義。近幾年質(zhì)疑檔案數(shù)據(jù)概念和領(lǐng)域“泛化”的聲音少了,越來(lái)越多的檔案人打開大門,接受數(shù)據(jù)的檔案性質(zhì)和廣泛來(lái)源,包括來(lái)源于不同活動(dòng)中的不同階段,盡管對(duì)其確切內(nèi)涵還有不同認(rèn)知,重要的是用開放思維接納并探討檔案數(shù)據(jù)的文件檔案屬性和管理。
2 我們需要收集歸檔哪些檔案數(shù)據(jù)?
檔案數(shù)據(jù)賦能經(jīng)濟(jì)社會(huì)發(fā)展,賦能新質(zhì)生產(chǎn)力,前提是要質(zhì)優(yōu)量足。在智能時(shí)代,哪些數(shù)據(jù)值得收集保存很難說清楚。除了人工智能生成數(shù)據(jù)的真實(shí)性與價(jià)值判定之外,還有不少值得思考的新問題。我看到OpenAI最早的10名員工之一Pieter對(duì)于現(xiàn)存數(shù)據(jù)缺陷的一種說法,對(duì)于我們認(rèn)識(shí)和收集檔案數(shù)據(jù)有啟發(fā)。他說,今天我們用的所有數(shù)據(jù)都是人類寫下來(lái)的,但是人類是要先做很多思考才有可能形成一些結(jié)論,AI沒有看到人類的思考過程,只看到了思考結(jié)果,只有人類所有的思考過程都記錄下來(lái)或者說出來(lái),這樣AI才能根據(jù)這些數(shù)據(jù)形成真正的推理能力。所以我們的數(shù)據(jù)看上去很大,但是缺失了非常大的一個(gè)部分。Pieter從AI科學(xué)家的視角提出的這個(gè)問題在我們的數(shù)據(jù)歸檔管理中可以有所思考。什么是結(jié)果數(shù)據(jù)?什么是有價(jià)值的過程數(shù)據(jù)?盡管這個(gè)說法對(duì)于檔案人并非全新,但是搞明白如何判斷和識(shí)別卻很不容易,具體到各個(gè)機(jī)構(gòu)更是十分復(fù)雜和艱難的選擇。
從數(shù)據(jù)內(nèi)容看,AI的飛躍式發(fā)展也提出一些新的方向。比如被稱為AI教母的李飛飛將人類智能歸結(jié)為語(yǔ)言智能和空間智能,她認(rèn)為二者都非常重要,在大語(yǔ)言模型紛紛問世之際,她奮力面向空間智能創(chuàng)建大世界模型,讓AI在3D世界中感知和生成,使人工智能不僅能思考,還能行動(dòng)。而訓(xùn)練這一類人工智能需要更多圖像和三維數(shù)據(jù),以便根據(jù)3D時(shí)空中物體、位置和交互進(jìn)行推理。目前這類數(shù)據(jù)被納入管理的還很少,需要引起我們的關(guān)注,收入我們的視線和收管范圍。
3 一些管理原理、理念的變化
比如,在信息資源管理中,包括圖書、檔案、數(shù)據(jù)管理等,分類是基礎(chǔ)性工作,以往的分類基本上遵循概念之間的上下位或同位關(guān)系進(jìn)行演繹和歸納,形成邏輯嚴(yán)密的分類體系?,F(xiàn)在用于訓(xùn)練 AI 的數(shù)據(jù)也要分類,李飛飛認(rèn)為“視知覺依賴于分類”,但是這個(gè)分類的邏輯似乎和我們傳統(tǒng)的信息分類不同,是根據(jù)現(xiàn)象、物體的多重特征劃分和歸類,非常復(fù)雜。她創(chuàng)辦的視覺數(shù)據(jù)庫(kù)ImageNet是AI產(chǎn)業(yè)公認(rèn)的重要基礎(chǔ)設(shè)施,初始版本收錄的15,000,000張圖片就涵蓋22000個(gè)類別,其類別數(shù)量之多遠(yuǎn)超過去的文本分類體系。我不大清楚她是什么樣的分類標(biāo)準(zhǔn)和方法,只知道她分類的目的是教會(huì)AI認(rèn)識(shí)各種空間事物,比如什么是一棵樹一條狗。我國(guó)檔案數(shù)據(jù)管理也將遇到面向AI的問題,因?yàn)樯鐣?huì)各領(lǐng)域?qū)⑵毡檠邪l(fā)和使用人工智能,不僅有綜合大模型,也有各個(gè)行業(yè)的垂類模型,不僅有語(yǔ)言模型也會(huì)做空間模型,盡管歸檔數(shù)據(jù)和AI訓(xùn)練數(shù)據(jù)可能不盡相同,如果一部分檔案數(shù)據(jù)能夠成為便于AI理解和訓(xùn)練的高質(zhì)量基礎(chǔ)數(shù)據(jù),就能在各行業(yè)智能化進(jìn)程中產(chǎn)生實(shí)際賦能。
未來(lái)的文件檔案管理不僅要面向人,也要面向AI,有些可能是通過AI來(lái)服務(wù)于人,所以,我們不僅要理解各種人群對(duì)電子文件/檔案數(shù)據(jù)的需要,也要理解AI邏輯和訓(xùn)練需求,這種新的需要會(huì)不會(huì)使我們千百年來(lái)為人類保管和提供利用而形成的文件檔案管理體系發(fā)生某些底層邏輯、原理和方法的變化呢?這樣的問題已經(jīng)開始不期而至了。前幾天我和一位著名經(jīng)濟(jì)學(xué)家聊天,他說,數(shù)字時(shí)代很多經(jīng)濟(jì)學(xué)原理遭遇顛覆性挑戰(zhàn),一系列新的經(jīng)濟(jì)學(xué)理論將在這個(gè)時(shí)代出現(xiàn),我想信息管理、電子文件管理何嘗不是如此?前些年有個(gè)說法,所有行業(yè)都可以在互聯(lián)網(wǎng)上重做一遍,現(xiàn)在的說法是所有行業(yè)都可以用AI重做一遍。此話不假,今年的諾貝爾化學(xué)獎(jiǎng)和物理學(xué)獎(jiǎng)花落AI專家就說明化學(xué)和物理學(xué)已經(jīng)開始重做了,檔案管理、電子文件管理也注定不會(huì)例外?!爸刈觥本褪恰爸厮堋?,這個(gè)過程中伴有大量的否定、改變和創(chuàng)新,在座的不少人此生經(jīng)歷了兩次歷史性“重做”,可以說是辛苦并幸運(yùn)的,這是這一代人的宿命和使命,我們只有勇于面對(duì),在“重做”中書寫文件、檔案、數(shù)據(jù)管理的新篇章。
*此文為作者2024年10月19日在安徽合肥的“第十四屆中國(guó)電子文件管理論壇”上的致辭。