周文泓 李新功
摘 要:本文以理論構(gòu)建的方法概述了人工智能并梳理了人工智能與檔案網(wǎng)站建設(shè)的結(jié)合點(diǎn),即有限的檔案在線利用、在線檔案產(chǎn)品需充分的投入、互動與社區(qū)功能有限。由此,本文提出在人工智能的背景下,檔案網(wǎng)站可從如下方面予以優(yōu)化:以建設(shè)整體智能中心為目標(biāo)、融合數(shù)據(jù)管理理念、加強(qiáng)人工智能服務(wù)。
關(guān)鍵詞:人工智能;檔案網(wǎng)站;網(wǎng)站優(yōu)化
Abstract: The paper took the method of theory modeling to introduce artificial intelligence and its connecting points with archives websites like limited archival access, limited efforts to produce archival products, and limited interactive and community function. Then the paper proposed that archives websites should make use of artificial intelligence to construct website as intelligent center as a whole, establish methodology of data management and strengthen the artificial intelligence service.
Keywords: Artificial intelligence; Archives website; Website optimization
1 引言
在移動互聯(lián)網(wǎng)、大數(shù)據(jù)、超級計算、傳感網(wǎng)、腦科學(xué)等新理論新技術(shù)以及經(jīng)濟(jì)社會發(fā)展強(qiáng)烈需求的共同驅(qū)動下,人工智能迅速發(fā)展,成為各領(lǐng)域重點(diǎn)關(guān)注與發(fā)展的方向。2017年7月,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,進(jìn)一步明確了人工智能在當(dāng)下社會發(fā)展中的重要性。這對檔案領(lǐng)域而言,亦是其數(shù)字轉(zhuǎn)型中的重要契機(jī)。檔案管理既需要處理大量的信息資源,亦要通過技術(shù)優(yōu)化管理,這些無一不與人工智能相關(guān)。
作為與社會活動緊密相關(guān)的應(yīng)用領(lǐng)域,如何應(yīng)用人工智能需要得到檔案實(shí)踐與研究領(lǐng)域的關(guān)注。在研究層面,檔案智能檢索系統(tǒng)的研究一定程度上與之相關(guān) [1],通過大數(shù)據(jù)建設(shè)與優(yōu)化檔案館的研究的重要方向之一就是實(shí)現(xiàn)檔案館的智能化,智慧檔案館的建設(shè)亦在倡導(dǎo)與人工智能的結(jié)合 [2]。然而,總的來說,當(dāng)前的研究中尚未將人工智能正式與檔案管理直接關(guān)聯(lián),例如,人工智能為什么能用于檔案管理、用于檔案管理的哪些方面、如何應(yīng)用、應(yīng)用的結(jié)果是什么都沒有得到解答。這樣的狀況同樣顯示在實(shí)踐領(lǐng)域中,除了在管理中實(shí)現(xiàn)了一定程度的自動化,或是在檔案館建筑有一定的智能元素外,尚未有全面與人工智能結(jié)合的檔案館落成。
因而,如何在人工智能背景下優(yōu)化檔案管理將有諸多可探討的方向。鑒于檔案網(wǎng)站作為檔案館線上門戶是關(guān)鍵的數(shù)字檔案資源整合與服務(wù)入口,本文將圍繞檔案網(wǎng)站建設(shè)探索如何通過人工智能優(yōu)化檔案管理,闡明為何以檔案網(wǎng)站為切入點(diǎn)、檔案網(wǎng)站與人工智能結(jié)合的要點(diǎn)是什么、如何將在檔案網(wǎng)站優(yōu)化中同人工智能相結(jié)合以及二者結(jié)合之后的結(jié)果是什么。
2 人工智能框架下檔案網(wǎng)站升級的觸發(fā)點(diǎn)
人工智能的迅速發(fā)展將深刻改變信息活動的方式與形態(tài),這也為檔案管理方法與工具的升級提供了契機(jī),也為檔案理論中構(gòu)思的更加高級的檔案館形態(tài)的落實(shí)提供了工具與技術(shù)。在這其中,檔案網(wǎng)站建設(shè)是重要的切入點(diǎn)。對應(yīng)于實(shí)體檔案館的智能化,線上的數(shù)字檔案館同樣是當(dāng)下檔案實(shí)踐的焦點(diǎn),檔案網(wǎng)站作為重要的門戶是建設(shè)數(shù)字檔案館的基礎(chǔ)和實(shí)現(xiàn)的功能之一。因而,應(yīng)用人工智能提供的理論、技術(shù)、基礎(chǔ)設(shè)施是大勢所趨,檔案網(wǎng)站長期以來已是檔案信息化建設(shè)中不可或缺的組成,需與信息技術(shù)同步發(fā)展。因而,在人工智能的框架下升級檔案網(wǎng)站建設(shè)將是檔案領(lǐng)域同人工智能融合的重要方面。
當(dāng)前,檔案網(wǎng)站建設(shè)已是多數(shù)檔案館的基本構(gòu)件,盡管限于理念、所處地區(qū)、設(shè)計框架等多方面的原因,各國與地區(qū)的檔案網(wǎng)站建設(shè)水平不盡一致,但基本功能相近,主要區(qū)別在于功能的完善程度。綜合以美國、加拿大、澳大利亞、英國等發(fā)達(dá)國家與我國省級地方的檔案網(wǎng)站來看,當(dāng)前檔案網(wǎng)站是提供檔案服務(wù)以及檔案機(jī)構(gòu)與社會展開互動的重要平臺,作為呈現(xiàn)檔案資源整合與服務(wù)的門戶,檔案網(wǎng)站的基本功能是要滿足用戶的檔案需求。隨著社會的發(fā)展,通過網(wǎng)站提供檔案服務(wù)的內(nèi)容與形式要求將更加多元化,相比當(dāng)前更多是提供靜態(tài)、單向或延時服務(wù),檔案網(wǎng)站智能化是必然要求。然而,即便是發(fā)達(dá)國家,亦有需升級優(yōu)化之處,而人工智能能夠提供一定的方法、工具與技術(shù)予以解決,這也正是為何在人工智能的框架下探討檔案網(wǎng)站優(yōu)化建設(shè)的根本原因。因而,從檔案網(wǎng)站的功能來看,需借助人工智能升級檔案網(wǎng)站:
2.1 有限的檔案在線利用。在線提供檔案利用服務(wù)是檔案網(wǎng)站的核心功能,當(dāng)前主要通過兩類途徑實(shí)現(xiàn):一是在線提供全文,二是通過目錄檢索明確所需檔案,再通過線上申請獲取檔案。相比于館藏中豐富的檔案資源,檔案的在線利用并不充分,問題主要顯現(xiàn)在如下方面:
第一,非數(shù)字格式的檔案還處于數(shù)字化的進(jìn)程中,當(dāng)前各國的檔案數(shù)字化完成度有待提升。由于數(shù)字化涉及計劃、檔案選擇、掃描、著錄等一系列流程,當(dāng)前有限的人力和財力使得數(shù)字化處于較緩慢的進(jìn)程中。例如,美國檔案與文件署保管了125億頁的文件,但得到數(shù)字化的不過2.35億頁[3]。第二,由于多數(shù)檔案僅能通過目錄檢索以線上申請結(jié)合人工審核的方式獲取,這使得檔案難以實(shí)時獲取且可能需要若干工作日的等待,甚至當(dāng)前多數(shù)檔案機(jī)構(gòu)并未提供針對用戶在線申請的檔案服務(wù),用戶仍然需要線下實(shí)地申請。第三,網(wǎng)站的在線檢索不盡完善,一方面在于數(shù)字化的檔案未能充分?jǐn)?shù)據(jù)化或原生數(shù)字檔案的異構(gòu)化,信息組織深度不足,檔案不能完成數(shù)據(jù)層面的自定義,檔案之間難以互聯(lián)互通,未能達(dá)到機(jī)器學(xué)習(xí)的要求,從而難以高效提供精確的檔案滿足用戶需求。另一方面,網(wǎng)站未能提供全面的在線專業(yè)指導(dǎo)或輔助,用戶在檢索中遇到的問題難以及時解決。例如,我國當(dāng)前的檔案網(wǎng)站并未實(shí)現(xiàn)全文檢索,對所需檔案了解有限的用戶檢索策略難以與檔案網(wǎng)站提供目錄、主題詞或關(guān)鍵詞匹配[4]。第四,數(shù)字化檔案與原生數(shù)字檔案均存在智能開放問題,即技術(shù)上能夠?qū)崿F(xiàn)在線檢索卻限于保障檔案利益相關(guān)者的權(quán)益所需面臨開放上的問題。例如,開放哪些檔案、開放檔案中的哪部分內(nèi)容、對誰開放,合適開放是精細(xì)化的工作,亦需要更加嚴(yán)密的規(guī)則支持,在目前更多地依賴人工審查的狀況下開放受限,未能充分應(yīng)用技術(shù)也導(dǎo)致開放存在一定問題。
2.2 在線檔案產(chǎn)品需充分的投入。檔案網(wǎng)站除了提供未加工的檔案以外,還通過資源整合與挖掘提供各類數(shù)字檔案產(chǎn)品,例如,網(wǎng)上展覽支持教育的歷史檔案專題。這些檔案產(chǎn)品在內(nèi)容與形式上同原始檔案相比有著更高的要求,例如豐富的知識量、多樣性、趣味性、可視化等被視作檔案產(chǎn)品應(yīng)當(dāng)凸顯的特征。因而,在線檔案產(chǎn)品的開發(fā)需要充分的投入,但目前存在如下局限:
第一,如何選擇合適的主題以及相應(yīng)的檔案開發(fā)整體性的產(chǎn)品。在這其中,用戶的需求如何更好識別,社會相關(guān)熱點(diǎn)如何及時抓取,如何明確所需的檔案等都面臨大量工作。第二,如何深度設(shè)計與開發(fā)檔案產(chǎn)品。例如,從我國現(xiàn)有網(wǎng)站提供的整合類產(chǎn)品來看,圖片式的平面展覽較多,如何提供在形式與內(nèi)容上更多元且更具文化與視覺效應(yīng)的產(chǎn)品、如何從整體上設(shè)計產(chǎn)品體系與搭配不同產(chǎn)品都較具難度。第三,檔案產(chǎn)品開發(fā)需借助專業(yè)的技術(shù)挖掘、整合與呈現(xiàn)現(xiàn)有資源,用哪些技術(shù)、怎么用對檔案管理人員都有較大的挑戰(zhàn)。在這其中,人工智能通過深度學(xué)習(xí)、數(shù)據(jù)挖掘等都可以幫助解決問題。
2.3 互動與社區(qū)功能有限。檔案網(wǎng)站的互動功能有限在各項圍繞檔案網(wǎng)站的研究中得到凸顯,當(dāng)前主要是通過社交媒體來補(bǔ)足互動方面的局限。然而同檔案網(wǎng)站相比,社交媒體無法同時提供充足的信息資源,且社交媒體是依托第三方平臺提供服務(wù),無論是功能、資源還是自主性上都無法替代檔案網(wǎng)站。在我國,當(dāng)前即使開通了社交媒體賬號的機(jī)構(gòu)也往往無法實(shí)現(xiàn)實(shí)時互動。當(dāng)前,參與式的檔案館被視作是檔案館未來的發(fā)展方向,檔案網(wǎng)站作為重要載體亦在構(gòu)建與完善相應(yīng)的功能。例如,美國檔案與文件署在其網(wǎng)站開設(shè)了眾包平臺dashboard,為了更好地實(shí)現(xiàn)檔案館工作人員、志愿者以及公眾的共享與交流建立了歷史社區(qū)(history hub)。
然而,即使是網(wǎng)站建設(shè)較好的國家或地區(qū),依然在互動方面存有不足:第一,直接性的互動有限。當(dāng)前網(wǎng)站主要通過郵箱、電話、在線表單、社交媒體等形式提供互動通道,本質(zhì)上是依托檔案網(wǎng)站提供互動方式,并不是用戶與檔案網(wǎng)站展開互動。第二,及時性不足,通過上述的形式與檔案機(jī)構(gòu)建立聯(lián)系時,用戶往往需要一定的時間才能得到反饋。例如,英國國家檔案館、加拿大圖書檔案館、美國檔案與文件署等對用戶在線提交的檔案利用申請的反饋時間規(guī)定在一到五個工作日。第三,技術(shù)未能有效支持公眾參與,當(dāng)前的公眾參與的任務(wù)發(fā)布、成果的審核、參與過程中的相互交流等并不順暢,往往需要人工的干預(yù),亦要在有限的數(shù)據(jù)分析的情況下優(yōu)化公眾參與的任務(wù)與流程,這在人員及其能力有限的情況下往往呈現(xiàn)出公眾參與不足以及成果質(zhì)量參差不齊的情況,這也是各國的眾包項目中一致指出的問題[5]。第四,個性化服務(wù)不足,當(dāng)前的網(wǎng)站主要是提供通用性的功能,除了如加拿大圖書與檔案館推出了個人檔案門戶的板塊外,多數(shù)檔案網(wǎng)站主要是在被動接收用戶的指令后提供內(nèi)容與形式都一致的服務(wù),未能識別用戶的特點(diǎn)與需求充分提供個性化的服務(wù)。
3 檔案網(wǎng)站智能化策略
當(dāng)前檔案網(wǎng)站資源整合與服務(wù)、互動與社區(qū)功能尚需進(jìn)一步拓展與深化。智能化建設(shè)技術(shù)發(fā)展背景下檔案網(wǎng)站的升級正是功能升級的有效途徑。隨著人工智能進(jìn)入發(fā)展新階段,且我國乃至世界范圍內(nèi)人工智能得到重點(diǎn)關(guān)注與倡導(dǎo),檔案網(wǎng)站的智能化建設(shè)不再處于構(gòu)想或是準(zhǔn)備階段,而是能夠依托技術(shù)實(shí)現(xiàn)落地。當(dāng)前檔案網(wǎng)站呈現(xiàn)的不足體現(xiàn)出三大問題:一是各功能的智能化水平均較低;二是數(shù)據(jù)管理理念與方法未融合于網(wǎng)站運(yùn)營中;三是網(wǎng)站運(yùn)營依賴于人工支持與運(yùn)營團(tuán)隊人員有限的矛盾較大?;谶@三大問題,開展系統(tǒng)的檔案網(wǎng)站智能化建設(shè)。
3.1 以建設(shè)整體智能中心為目標(biāo)。建設(shè)整體智能中心意味著檔案網(wǎng)站的智能化建設(shè)是全面、系統(tǒng)、深入的,具體表現(xiàn)為:第一,檔案網(wǎng)站不僅是檔案機(jī)構(gòu)同用戶互動的中介平臺,而且檔案機(jī)構(gòu)能夠作為相對獨(dú)立的主體分析與解決運(yùn)營的相關(guān)問題,以智能主體的定位開展工作。(1)檔案網(wǎng)站能自主整合檔案資源并提供各類檔案服務(wù)從而與用戶良好互動。(2)檔案網(wǎng)站可以同檔案機(jī)構(gòu)或工作人員互動以明確檔案網(wǎng)站的運(yùn)營需求從而獲取相應(yīng)的內(nèi)容與技術(shù)等資源。(3)檔案網(wǎng)站可以自主運(yùn)營,包括組織檔案網(wǎng)站上活動的不同主體的社區(qū)建設(shè)。第二,檔案網(wǎng)站的智能化建設(shè)不是針對某項功能,而是要實(shí)現(xiàn)各個功能模塊協(xié)同的智能化。一方面,對現(xiàn)有功能予以智能化升級,例如,可以依靠人工智能優(yōu)化當(dāng)前展覽的組織與呈現(xiàn)方面,可參考挪威國家博物館正在試驗的機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)管理館藏,機(jī)器視覺增加元數(shù)據(jù)以識別和標(biāo)記圖像,機(jī)器根據(jù)“脫離情境的捕捉和凝視” 技術(shù)呈現(xiàn)信息原貌,從而在展覽上往往呈現(xiàn)出不同于人類邏輯的意外結(jié)果。另一方面,開發(fā)基于人工智能的新功能,依托人工智能在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、信息整合、可視化等方面的優(yōu)勢,可以開拓更加多元的檔案信息服務(wù)模塊。
3.2 融合數(shù)據(jù)管理理念。檔案網(wǎng)站的運(yùn)營優(yōu)化本質(zhì)上如何將檔案機(jī)構(gòu)的資源從內(nèi)容與形式上同用戶匹配,很大程度上關(guān)乎兩大方面的事務(wù):一是檔案機(jī)構(gòu)對檔案網(wǎng)站的輸入;二是檔案網(wǎng)站對用戶的輸出以及用戶對網(wǎng)站的反饋乃至貢獻(xiàn),這又直接體現(xiàn)為供求問題。因而,為了實(shí)現(xiàn)檔案資源供應(yīng)與用戶檔案需求的平衡,人工智能的框架要在檔案網(wǎng)站運(yùn)營中融合數(shù)據(jù)管理理念:第一,明晰可供利用的檔案資產(chǎn),并明確檔案管理的規(guī)則。即可通過檔案網(wǎng)站實(shí)現(xiàn)在線開放與利用的檔案有哪些以及這些檔案如何開放與在線利用要有精細(xì)化的規(guī)則,包括利用的形式與內(nèi)容有何要求、用戶權(quán)責(zé)如何設(shè)定、開放與利用的權(quán)限是什么等,從而能夠為網(wǎng)站智能化提供基本的規(guī)則。第二,實(shí)現(xiàn)檔案的數(shù)據(jù)化,保證檔案可以支持深度的檢索和整合。這需要做好數(shù)據(jù)的組織與挖掘工作,依靠語義網(wǎng)與本體實(shí)現(xiàn)檔案的數(shù)據(jù)分解和關(guān)聯(lián),從數(shù)據(jù)層面完成檔案的自定義,從而將檔案整合為可支持機(jī)器學(xué)習(xí)的數(shù)據(jù)資源。例如,當(dāng)前我國的地質(zhì)資料館已實(shí)現(xiàn)對檔案的數(shù)據(jù)化,從而能夠根據(jù)各種維度與屬性呈現(xiàn)檔案并可應(yīng)用可視化方式實(shí)現(xiàn)利用。這樣的方式應(yīng)當(dāng)在檔案網(wǎng)站的檔案產(chǎn)品中凸顯,并且要利用人工智能打造更多形式的產(chǎn)品。第三,依托人工智能及時收集各類用戶行為的數(shù)據(jù),用以反饋檔案運(yùn)營的優(yōu)勢與不足之處,從而明確能夠給用戶提供的資源以及如何提供。通過精細(xì)化的運(yùn)營管理,實(shí)現(xiàn)網(wǎng)站資源整合、頁面布局、功能模塊設(shè)計等多方面的實(shí)時調(diào)整與優(yōu)化。例如,可以借鑒美國國家美術(shù)館使用Dexibit的工具分析用戶訪問數(shù)據(jù)并預(yù)測未來的訪問情況[6]。
3.3 加強(qiáng)人工智能服務(wù)。為彌補(bǔ)當(dāng)前網(wǎng)站相對靜態(tài)的呈現(xiàn),人工智能服務(wù)的導(dǎo)入也將是檔案網(wǎng)站智能化建設(shè)的核心內(nèi)容之一,從而將檔案網(wǎng)站從單向性為主的門戶轉(zhuǎn)向更具智能與關(guān)聯(lián)意識的數(shù)字平臺。在無法提供足夠的工作人員應(yīng)對來自不同用戶的檔案申請、反饋或咨詢時,檔案網(wǎng)站的人工智能服務(wù)的強(qiáng)化是必要的,從而將人力從自動化的工作中解放出來。這既可以令檔案機(jī)構(gòu)專注于創(chuàng)造性的工作,又可以依托人工智能在一定標(biāo)準(zhǔn)框架內(nèi)提供更加優(yōu)質(zhì)的服務(wù)。一方面,在用戶端提供檔案網(wǎng)站助手服務(wù),提升個性化服務(wù)的系統(tǒng)與智能化。即通過這項技術(shù),檔案在線申請利用、政策咨詢、意見反饋乃至實(shí)體檔案館的路線個性化制定等活動都可以實(shí)時提出并獲得答案。另一方面,在資源端,人工智能幫助檔案工作人員完成檔案的整合、開發(fā)、利用以及保管等工作。面對海量且正在即時增長的信息,人工智能可以幫助承擔(dān)信息的標(biāo)記、分類、描述等工作,尤其是對照片、視頻等非文本信息,更可以通過大數(shù)據(jù)、機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)等進(jìn)行更加系統(tǒng)的整合與開發(fā),從而保證能夠在用戶端提供充分的檔案信息資源,更能依據(jù)用戶端的需求與數(shù)據(jù)完成無縫鏈接的服務(wù)工作。
參考文獻(xiàn):
[1]朱久蘭.檔案信息智能檢索[J].檔案學(xué)通訊,1994(4):57-59.
[2]楊智勇,周楓.試析智慧檔案館的興起與未來發(fā)展[J].檔案學(xué)通訊,2015(4):45-50.
[3]NARA. DRAFT FY 2018 - FY 2022 Strategic Plan[EB/OL].[2017-12-21]2017-09-11.https://usnationalarchives.github.io/strategic-plan/goal1/.
[4]王晨.省級檔案網(wǎng)站資源檢索現(xiàn)狀及其問題研究[J].浙江檔案,2016(9):10-12.
[5]顧麗婭.國外檔案眾包實(shí)踐及啟示[J].浙江檔案,2015(7):13-15.
[6]弘博網(wǎng).人工智能:連接博物館與公眾的新方式[EB/OL].[2017-12-21]2017-11-30.http://www.hongbowang.net/e/wap/show.php?classid=59&id=8308&style=0&bclassid=58&cid=59&cpage=0.
(作者單位:周文泓,四川大學(xué)公共管理學(xué)院;李新功,中國人民大學(xué)信息資源管理學(xué)院 來稿日期:2019-02-02)