李育桂 彌渡縣檔案館
人工智能技術(shù)快速發(fā)展,引領(lǐng)了包括檔案管理在內(nèi)的眾多領(lǐng)域智能化轉(zhuǎn)型。文章采用文獻(xiàn)計(jì)量的方法,選擇中國(guó)知網(wǎng)中我國(guó)檔案領(lǐng)域人工智能研究相關(guān)的文獻(xiàn)作為統(tǒng)計(jì)和分析對(duì)象,從文獻(xiàn)的發(fā)表數(shù)量、期刊和基金分布情況、機(jī)構(gòu)分布趨勢(shì)和研究熱點(diǎn)等角度進(jìn)行分析,進(jìn)一步闡釋我國(guó)檔案領(lǐng)域人工智能的研究現(xiàn)狀,為人工智能技術(shù)更好地應(yīng)用于檔案管理作出展望。
隨著信息時(shí)代的快速發(fā)展,信息大數(shù)據(jù)爆發(fā)式增長(zhǎng),獲取數(shù)據(jù)的方式越來(lái)越便捷,獲取數(shù)據(jù)的成本越來(lái)越低,信息化對(duì)各行各業(yè)都產(chǎn)生了深刻的影響。面對(duì)高度信息化的時(shí)代背景,檔案管理工作必須要結(jié)合大數(shù)據(jù)和人工智能,探索新的管理模式,提高管理效率,緊跟時(shí)代步伐。當(dāng)下檔案管理正發(fā)揮著越來(lái)越重要的地位和作用,日益成為國(guó)家基礎(chǔ)性戰(zhàn)略資源。隨著云計(jì)算、大數(shù)據(jù)和移動(dòng)網(wǎng)絡(luò)技術(shù)的發(fā)展,人工智能的電子政務(wù)建設(shè)正在快速推進(jìn),并促進(jìn)了電子檔案的形成和管理,檔案信息化與互聯(lián)網(wǎng)利用必然成為未來(lái)的發(fā)展趨勢(shì)。人工智能化對(duì)于檔案的管理發(fā)展與拓新至關(guān)重要。通過(guò)將人工智能技術(shù)與檔案管理進(jìn)行融合,可以實(shí)現(xiàn)大數(shù)據(jù)的智能化管理與精細(xì)化管理,減少大量的人力、物力成本,甚至可以說(shuō)產(chǎn)生革命性的變化,如傳統(tǒng)意義上的紙質(zhì)檔案記錄、檔案保存室將逐漸減少,電子化的存儲(chǔ)配以各種移動(dòng)設(shè)備可以實(shí)現(xiàn)檔案管理的無(wú)紙化、便捷化。但是,目前檔案領(lǐng)域的人工智能研究還未有人通過(guò)文獻(xiàn)計(jì)量學(xué)的方法進(jìn)行研究。為了研究人工智能與檔案管理的相關(guān)性,本文通過(guò)文獻(xiàn)計(jì)量學(xué)的方法對(duì)中國(guó)知網(wǎng)中“檔案與人工智能”相關(guān)的文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,初步分析該領(lǐng)域的研究現(xiàn)狀。
中國(guó)知網(wǎng)(CNKI)是目前世界上全文信息量規(guī)模最大的“數(shù)字圖書(shū)館”,幾乎收錄了國(guó)內(nèi)公開(kāi)發(fā)行的各領(lǐng)域文獻(xiàn)研究資料。本研究選擇中國(guó)知網(wǎng)進(jìn)行文獻(xiàn)統(tǒng)計(jì)與分析。在中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)中選擇高級(jí)檢索,在主題詞的的檢索框中輸入“檔案”“人工智能”等關(guān)鍵詞,選擇包含“and”的精確檢索,同時(shí)勾選所有中文文獻(xiàn),定義時(shí)間段為2010年1月1日至2021年1月1日。同時(shí)為了在檢索的時(shí)候排除其他無(wú)關(guān)文獻(xiàn)的干擾,確保我國(guó)檔案領(lǐng)域人工智能研究論文的查準(zhǔn)率與查全率,添加了以下檢索條件:(1)只選擇可信度較高、有一定學(xué)術(shù)價(jià)值的研究性文獻(xiàn),排除如報(bào)紙、雜文、年鑒、年會(huì)摘要等學(xué)術(shù)價(jià)值不高、專(zhuān)業(yè)性不強(qiáng)的資料;(2)只挑選文題中包含關(guān)鍵詞的文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,其余無(wú)關(guān)文獻(xiàn)進(jìn)行排除。本研究共檢索相關(guān)的中文文獻(xiàn)268篇,經(jīng)過(guò)對(duì)相關(guān)內(nèi)容進(jìn)行仔細(xì)核對(duì)后,剔除無(wú)緊密聯(lián)系的文獻(xiàn)30篇,并對(duì)剩余的文獻(xiàn)進(jìn)行仔細(xì)分析。
文獻(xiàn)計(jì)量法是最近幾年比較流行的文獻(xiàn)統(tǒng)計(jì)方法,即通過(guò)大數(shù)據(jù)篩選、統(tǒng)計(jì)學(xué)分析對(duì)相關(guān)主題進(jìn)行量化,進(jìn)一步更加直觀地描述或解釋數(shù)據(jù)特征和變化規(guī)律。通過(guò)文獻(xiàn)計(jì)量的方法可以量化、確定發(fā)文者的影響力;分析不同發(fā)文者研究成果的異同,是目前專(zhuān)業(yè)同行間評(píng)價(jià)的重要方法。本文利用文獻(xiàn)計(jì)量的方法對(duì)國(guó)內(nèi)檔案人工智能研究論文的時(shí)間分布、發(fā)文期刊、研究機(jī)構(gòu)、作者分布和研究熱點(diǎn)等進(jìn)行定量統(tǒng)計(jì)與定性分析,試圖解析我國(guó)檔案人工智能研究的發(fā)展趨勢(shì)、研究進(jìn)展、熱點(diǎn)前沿、學(xué)科知識(shí)結(jié)構(gòu)及其動(dòng)態(tài)演化的關(guān)系。
首先,文獻(xiàn)數(shù)量的變化可以直接反映出科學(xué)知識(shí)量的變化情況,故文獻(xiàn)數(shù)量的多少是衡量知識(shí)數(shù)量的重要標(biāo)準(zhǔn)之一。本文的文獻(xiàn)增長(zhǎng)變化規(guī)律是以年度文獻(xiàn)數(shù)量為標(biāo)準(zhǔn)的,從檢出文獻(xiàn)的統(tǒng)計(jì)結(jié)果來(lái)看,2010年至2018年我國(guó)檔案領(lǐng)域人工智能相關(guān)研究文獻(xiàn)數(shù)量較少,基本屬于空窗期。隨著國(guó)家《全國(guó)檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》的實(shí)施和人工智能相關(guān)技術(shù)的快速發(fā)展,我國(guó)檔案領(lǐng)域人工智能研究的文獻(xiàn)數(shù)量于2016年后急速增長(zhǎng),其中2018年的發(fā)文數(shù)為24篇,2019年的發(fā)文數(shù)為77篇,2020年的發(fā)文數(shù)為102篇,預(yù)測(cè)2021年的發(fā)文數(shù)將超過(guò)200篇。從學(xué)術(shù)成果發(fā)表數(shù)量和趨勢(shì)看,我國(guó)檔案領(lǐng)域人工智能相關(guān)研究正在成為當(dāng)今和今后研究的熱點(diǎn)。
其次,分析檔案人工智能研究發(fā)文期刊的分布和層次,可以更好地把握該領(lǐng)域的研究現(xiàn)狀,進(jìn)一步明晰該領(lǐng)域的研究水平。我國(guó)檔案領(lǐng)域人工智能研究載文量排名前十的期刊分別為《檔案與建設(shè)》(7篇)、《中國(guó)檔案》(5篇)、《蘭臺(tái)世界》(5篇)、《山西檔案》(4篇)、《蘭臺(tái)內(nèi)外》(4篇)、《北京檔案》(4篇)、《檔案管理》(3篇)、《山東檔案》(3篇)、《山東檔案》(3篇)、《檔案學(xué)研究》(3篇)。其中檔案學(xué)期刊有8種,綜合期刊有2種,總的來(lái)看各期刊的載文量基本持平。從中國(guó)知網(wǎng)綜合影響因子方面來(lái)看,在我國(guó)檔案領(lǐng)域人工智能研究的載文量排名前十的期刊中,《檔案學(xué)研究》的CNKI綜合影響因子1.1為最高,其余雜志CNKI綜合影響因子均未超過(guò)0.5。文獻(xiàn)的影響因子低意味著影響力較低,未來(lái)如何在影響因子高、影響力較大的高質(zhì)量雜志上發(fā)表檔案領(lǐng)域人工智能研究論文是亟需突破的發(fā)展瓶頸。
第三,科技基金作為支持科學(xué)研究的主要資助渠道,可以促進(jìn)知識(shí)生產(chǎn)與創(chuàng)新。從檔案人工智能管理工作相關(guān)的科學(xué)資助基金看,排名前5的資助基金分別為國(guó)家社會(huì)科學(xué)基金(17項(xiàng))、國(guó)家檔案局科技項(xiàng)目(5項(xiàng))、國(guó)家自然科學(xué)基金(3項(xiàng))、江蘇省社會(huì)發(fā)展科技計(jì)劃(2項(xiàng))、教育部人文社會(huì)科學(xué)基金(1項(xiàng))。從統(tǒng)計(jì)的結(jié)果可以發(fā)現(xiàn),基本上每年國(guó)家社會(huì)科學(xué)基金都對(duì)檔案人工智能管理工作進(jìn)行了項(xiàng)目資助,說(shuō)明我國(guó)特別重視檔案領(lǐng)域的人工智能發(fā)展與利用。
第四,文獻(xiàn)發(fā)文機(jī)構(gòu)和高產(chǎn)作者的研究分析可以進(jìn)一步明確當(dāng)前檔案人工智能學(xué)術(shù)研究的現(xiàn)狀。從檔案領(lǐng)域人工智能研究發(fā)文機(jī)構(gòu)和作者分析來(lái)看,我國(guó)檔案領(lǐng)域人工智能研究發(fā)文量排名前三的機(jī)構(gòu)分別為中國(guó)人民大學(xué)(18篇)、上海大學(xué)(10篇)、安徽大學(xué)(6篇),其所涉及的基金主要為國(guó)家社會(huì)科學(xué)基金及國(guó)家自然基金。在檔案領(lǐng)域人工智能研究的發(fā)文數(shù)前10的機(jī)構(gòu)中,只有云南華能瀾滄江水電有限公司、深圳市世紀(jì)科怡科技發(fā)展有限公司兩家企業(yè),其余主要還在科研院校進(jìn)行基礎(chǔ)理論研究和驗(yàn)證階段,說(shuō)明檔案領(lǐng)域的人工智能相關(guān)應(yīng)用還未成熟。
第五,我們將2010-2021年中國(guó)知網(wǎng)檢索到“檔案與人工智能”相關(guān)的文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,同時(shí)將發(fā)文3篇以上的作者界定為高產(chǎn)作者,發(fā)文量排名前3的作者分別為黃霄羽(中國(guó)人民大學(xué))6篇、管清瀠(中國(guó)人民大學(xué))4篇、陳秀麗(云南華能瀾滄江水電有限公司)3篇。從高產(chǎn)作者的發(fā)文來(lái)看,檔案與人工智能領(lǐng)域的發(fā)文相對(duì)集中在中國(guó)人民大學(xué),且作者存在著小群體的相互合作關(guān)系。普賴(lài)斯定律是用來(lái)衡量各個(gè)學(xué)科文獻(xiàn)作者分布規(guī)律的,因?yàn)榭萍记閳?bào)學(xué)起源于文獻(xiàn)計(jì)量學(xué),科學(xué)計(jì)量學(xué)和文獻(xiàn)計(jì)量學(xué)有很多的研究方法是類(lèi)似的,所以普賴(lài)斯定律也成了研究科技情報(bào)學(xué)的方法之一。從作者的發(fā)文數(shù)與發(fā)文頻率來(lái)看,目前檔案領(lǐng)域的人工智能研究還沒(méi)有形成穩(wěn)定的高產(chǎn)作者群。
最后,文獻(xiàn)的引文分析是利用數(shù)學(xué)及統(tǒng)計(jì)學(xué)的方法和比較、歸納、抽象、概括等邏輯,對(duì)科學(xué)期刊、論文、著者等各種分析對(duì)象的引證與被引證現(xiàn)象進(jìn)行分析,進(jìn)而揭示其中的數(shù)量特征和內(nèi)在規(guī)律的一種文獻(xiàn)計(jì)量分析方法。通過(guò)對(duì)選定文獻(xiàn)的引文分析,我們可以知道檔案領(lǐng)域人工智能的總體發(fā)展情況,明確現(xiàn)階段存在的問(wèn)題。從收集的文獻(xiàn)引文分析來(lái)看,90%以上的引文都源于國(guó)內(nèi)的參考文獻(xiàn),很少涉及到國(guó)外的研究文獻(xiàn),說(shuō)明該領(lǐng)域研究還不夠深入、范圍還不夠廣;引文大都是綜述、調(diào)查研究,較少涉及到文獻(xiàn)計(jì)量學(xué)的原理、方法;引用的文獻(xiàn)主題、關(guān)鍵詞大都類(lèi)似,文獻(xiàn)的具體內(nèi)容也大同小異,很少有創(chuàng)新性較強(qiáng)的文獻(xiàn);引文的影響力普遍較弱,專(zhuān)業(yè)性不是很強(qiáng),僅能起到科普作用,難以推動(dòng)該領(lǐng)域的學(xué)科發(fā)展。
檔案管理人工智能化是一個(gè)系統(tǒng)性的過(guò)程,不可能一蹴而就,在大數(shù)據(jù)時(shí)代的背景下,檔案管理將更加依賴(lài)人工智能,如何將人工智能與檔案管理進(jìn)行深入融合仍舊是當(dāng)前和今后的研究熱點(diǎn)之一。