■ 廖素虹 周 銘 蘇玖雯 張彭嘉
隨著社會對檔案信息資源需求的增長,檔案資源管理的分散性、布局的不均衡性以及孤立與互通的矛盾性日益凸顯,且檔案管理工作逐漸向數(shù)據(jù)態(tài)轉(zhuǎn)型,需要利用現(xiàn)代信息技術手段對分散獨立的檔案資源進行整合,使其相互聯(lián)結(jié)成有序化、結(jié)構(gòu)化、系統(tǒng)化的整體,形成集成式管理[1]。然而,為了實現(xiàn)對檔案數(shù)據(jù)信息的有效管理,構(gòu)筑檔案數(shù)據(jù)共享利用空間,數(shù)據(jù)庫建設成為一種必然選擇。從20 世紀80 年代初開始,我國檔案部門在檔案管理工作中采用計算機技術進行了積極的探索,積累了大量的經(jīng)驗;到20 世紀90 年代,檔案計算機管理得到了廣泛的推廣和應用;進入21 世紀,檔案數(shù)據(jù)的信息化建設更是成為了檔案工作的主要任務。
2002 年以來,國家檔案局先后發(fā)布了《全國檔案信息化建設實施綱要》、《檔案事業(yè)發(fā)展“十一五”規(guī)劃》,提出了“建立一批電子文件中心和數(shù)字檔案館,實現(xiàn)檔案信息資源社會共享”的總體目標;2015 年國務院印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》提出“加快政府數(shù)據(jù)開放共享,推動資源整合,提升治理能力”;2021 年1 月1 日起,新《檔案法》開始施行,增加了“第五章檔案信息化建設”等內(nèi)容。在這樣的背景下可以看出,加強檔案資源整合和檔案數(shù)據(jù)庫建設工作、促進檔案信息化建設是時代發(fā)展的必然要求。
本研究數(shù)據(jù)來源主要從國家社科基金項目數(shù)據(jù)庫和中華人民共和國教育部年度人文社科基金項目立項結(jié)果公示中搜索獲取。為了準確確定一個項目是否屬于檔案整合與檔案數(shù)據(jù)庫建設研究項目,本文所用數(shù)據(jù)參考了課題名稱、研究方向和最終成果。
首先,分別以關鍵詞“檔案”“整合”“數(shù)據(jù)庫”進行檢索,從中甄別出檔案整合與檔案數(shù)據(jù)庫建設項目;繼而分別以“文獻整合”“文獻匯集”“檔案集成”為關鍵詞進行搜索補充,加強研究數(shù)據(jù)的可靠性。
其次,為進一步提高數(shù)據(jù)查全率,筆者在中國知網(wǎng)中國學術期刊網(wǎng)絡出版總庫中選用“篇名”為檢索項,分別以“檔案整合”“檔案集成”“檔案匯集”“文獻整合”“檔案數(shù)據(jù)庫建設”“檔案數(shù)據(jù)庫建構(gòu)”“檔案數(shù)據(jù)庫構(gòu)建”“檔案數(shù)字化平臺”為檢索詞,采用“模糊”檢索,鑒別相關基金項目的研究成果是否與“檔案整合”或“檔案數(shù)據(jù)庫建設”主題相吻合,并根據(jù)“基金資助”提示的項目批準號鎖定基金項目。
最后,經(jīng)過檢索、篩查,手動剔除與研究主題不相關或重復的項目后,共收集20 世紀90 年代以來檔案整合與檔案數(shù)據(jù)庫建設國社科基金139 項,教社科基金19 項,總計158 項。按照“項目批準號、項目類別、學科分類、項目名稱、立項時間、項目負責人、工作單位”等條目在EXCEL表格中分類匯總進行統(tǒng)計分析,最后將相關數(shù)據(jù)輸入到“微詞云”中展開項目主題詞頻分析。
除去14 項沒有標明立項時間的國社科基金,兩大基金在檔案整合與數(shù)據(jù)庫建設類項目上總體呈現(xiàn)上升趨勢(總數(shù)線性示意)。如圖1 所示,從2012 年開始,立項總數(shù)呈明顯上升態(tài)勢,并在2019 年達到頂峰,這或與國家檔案局關于印發(fā)《2013 年全國檔案宣傳工作要點》的通知中提到的“要結(jié)合‘以人為本’戰(zhàn)略的實施,宣傳‘大檔案’資源建設”和2016 年國家檔案局印發(fā)《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》指出“要積極響應數(shù)字中國建設,推進信息技術與檔案工作深度融合,加快檔案管理信息化的進程”有關??梢钥闯?,當立項數(shù)量增加到一定程度之后,會出現(xiàn)數(shù)量下降現(xiàn)象,該現(xiàn)象或與前一年該類立項數(shù)量較多有關,但總體上升態(tài)勢良好,可以預見,未來幾年仍會持續(xù)上升[2]。
圖1 檔案整合與數(shù)據(jù)庫建設類項目兩大社科基金年度分布
重大、重點級別的課題項目可以反映檔案整合與數(shù)據(jù)庫建設的學術研究與現(xiàn)實需要的契合性[3]。20 世紀90 年代以來國社科基金重大、重點項目共66 項,占項目總數(shù)47.5%,占比非常之高。由表1 可知,從總體縱向來看,立項總體數(shù)量與圖1 變化一致,呈上升態(tài)勢。從橫向來看,研究主要集中在重大項目56 項、一般項目38 項、青年項目21 項,分別占項目總數(shù)的41.73%、27.34%、15.11%。其中重大項目占比最大,且數(shù)量在最近幾年上升尤為明顯;重點項目和一般項目在年度分布上相對比較平均;后期資助有1項,出現(xiàn)在2017 年。
表1 檔案整合與數(shù)據(jù)庫建設類項目國社科基金項目類別表
由表2 可知,近30 年來,教社科基金尚未有關于檔案整合與數(shù)據(jù)庫建設的重大和重點項目中標,僅1 項一般項目立項。項目主要以規(guī)劃基金項目和青年基金項目為主,且兩者的立項數(shù)量較為平均,規(guī)劃基金占立項總數(shù)的42.11%,青年基金占立項總數(shù)的52.63%。其中青年項目的立項數(shù)量最多,說明青年學者正在不斷進入檔案整合與數(shù)據(jù)庫建設研究領域中。
表2 檔案整合與數(shù)據(jù)庫建設類項目教社科基金項目類別表
學科分類情況能夠在一定程度上體現(xiàn)出某學科對該研究領域的重視程度和研究水平。除43項國社科基金沒有注明學科分類外,本研究共統(tǒng)計了96 項兩大社科基金關于檔案整合與數(shù)據(jù)庫建設項目的學科分布情況。由表3 可知,不論是在國社科基金中還是教社科基金中,都是圖書館、情報與文獻學學科較為重視對檔案整合與數(shù)據(jù)庫建設的學術研究,其分別占國社科基金和教社科基金總項目的51.04%和57.89%,內(nèi)容涉及到各個領域,例如古籍數(shù)據(jù)庫的建設研究、數(shù)字檔案文化遺產(chǎn)整合路徑研究、少數(shù)民族口述史料數(shù)據(jù)庫建設研究、城市檔案整合利用研究等等。
表3 檔案整合與數(shù)據(jù)庫建設類項目兩大社科基金學科分類對比表
在國社科基金中,除圖書館、情報與文獻學外,語言學、中國歷史和中國文學占總項目數(shù)較多,分別為8.33%、10.42%和12.5%,可以看出,語言學、中國歷史和中國文學這三門學科對于檔案整合和數(shù)據(jù)庫建設方面的需求相對迫切,需要更深入地探討。其他學科分布較為平均。分析每年各學科所占比例情況可知,在2010 年以前,只有圖書館、情報與文獻學和語言學關注檔案整合與數(shù)據(jù)庫建設方面的研究,但直至2022 年,已經(jīng)有超過15 個學科領域開始關注到自身與檔案整合或檔案數(shù)據(jù)庫建設方面的聯(lián)系。
在教社科基金中,所涉及到的學科比國社科基金略少,包括了圖書館、情報與文獻學、藝術學、交叉學科/ 綜合研究、語言學、馬克思主義/思想政治教育5 個學科領域,其中藝術學和交叉學科/綜合研究各占項目總數(shù)的15.79%。
對科研立項所屬單位進行統(tǒng)計分析,可以反映出各研究單位在該領域的研究狀況和項目立項的排名情況[4]。經(jīng)統(tǒng)計,158 個基金項目中,有11 項是由11 個實際工作部門申請立項,其余147 項均屬高校教學機構(gòu)立項。由表4 可知,兩大社科基金的研究單位主要集中在中國人民大學、吉林大學、華中師范大學等綜合類和師范類院校。其中綜合類院校的立項有84 項,占項目總數(shù)的53.16%;師范類院校的立項為41 項,占項目總數(shù)的25.95%。其余院校立項數(shù)量均為1 項,院校性質(zhì)涉及語言類、民族類、醫(yī)藥類、理工類等多種類型。
表4 檔案整合與數(shù)據(jù)庫建設類項目兩大社科基金研究單位
對立項所屬地區(qū)進行分析可以客觀反映和總結(jié)目前研究領域分布的基本狀況。如圖2 所示,158 個項目在我國七大地理區(qū)域的分布存在失衡狀況。其中華東地區(qū)在立項數(shù)量(5 項)上有著絕對優(yōu)勢,占立項總數(shù)的31.65%。其次分別是華北、西南地區(qū),立項數(shù)量分別為28 項和26 項,分別占立項總數(shù)的17.72%和16.46%。華南地區(qū)的立項數(shù)量最少,為9 項,占立項總數(shù)的5.70%。
圖2 檔案整合與數(shù)據(jù)庫建設類項目地區(qū)分布
國家級別課題的研究主題分布可以反映檔案整合與數(shù)據(jù)庫建設的學術研究重點、熱點趨勢與研究內(nèi)容動態(tài)變化。本研究將158 項課題名稱匯總成“20 世紀90 年代以來國社科和教社科基金檔案整合與數(shù)據(jù)庫建設項目名稱”,導入“微詞云”網(wǎng)站中進行詞頻分析,獲取兩大社科基金檔案整合與數(shù)據(jù)庫建設項目名稱的高頻關鍵詞云圖(見圖3)。剔除不重要的名詞、動詞或其他單詞后,數(shù)據(jù)庫出現(xiàn)頻次58 次,集成45 次,檔案38次,整理32 次,資源21 次,文獻數(shù)據(jù)庫14 次,數(shù)字11 次,史料、知識9 次,信息、少數(shù)民族、數(shù)據(jù)、構(gòu)建8 次,口述7 次,文化資料、文化遺產(chǎn)、民間、整合6 次等。
圖3 檔案整合與數(shù)據(jù)庫建設兩大社科基金項目高頻關鍵詞云圖
“數(shù)據(jù)庫”是出現(xiàn)頻率最高的詞語,在158 項課題中,有約46.2%的項目以檔案數(shù)據(jù)庫建設為主題。此外可以發(fā)現(xiàn),口述檔案、歷史史料、文化遺產(chǎn)、少數(shù)民族、民間等領域比較看重檔案整合與數(shù)據(jù)庫建設方面的研究,且這些領域的檔案大都有不易收集、管理分散、急需搶救等特點,因此,對其檔案進行資源整合、建立數(shù)據(jù)庫,形成集成式管理成為一項迫切任務。
通過對20 世紀90 年代以來檔案整合與數(shù)據(jù)庫建設國社科基金和教社科基金的立項數(shù)量、立項時間、項目類別、學科分類等進行可視化分析,展示了兩大社科基金在該領域的學術研究發(fā)展與變化,得出以下結(jié)論:
158 個項目中僅有中國新聞出版研究院、南京大學檔案館、廣西壯族自治區(qū)圖書館等共11個實際工作部門在檔案整合與數(shù)據(jù)庫建設方面有所立項,其余研究單位均為高校教學機構(gòu)。且通過院校分布可以看出,研究主要集中在經(jīng)濟實力和教學資源較為強大的綜合類、師范類院校,而師資力量較弱的院校由于缺少資金或人才資源的支持,缺少對檔案整合與數(shù)據(jù)庫建設的立項研究。對此,筆者建議:第一,加大對實際工作部門的支持力度。為分擔各部門的工作任務,鼓勵其對檔案管理中的問題進行改進、創(chuàng)新,可以設立專門的檔案研究部門,引進專業(yè)的檔案管理人才,專門進行檔案管理工作的相關研究。第二,促進高校教學機構(gòu)與實際工作部門的優(yōu)勢互補。高校教學機構(gòu)有著優(yōu)秀的人力資源,但在研究過程中容易出現(xiàn)重理論、輕實踐的情況。而實際工作部門雖有著豐富的檔案資源,但面對大量的檔案,缺乏系統(tǒng)性的理論支撐和優(yōu)秀的人才來進行檔案整合和數(shù)據(jù)庫建設工作。因此,高校教學機構(gòu)與相關實際工作部門應該加強合作,聯(lián)合推動檔案資源整合新技術的應用研究,加強檔案數(shù)據(jù)庫平臺的建設,提高檔案管理系統(tǒng)的可操作性,以適應新時代的社會需求。
隨著中國對檔案整合與數(shù)據(jù)庫建設方面的日益重視,我國兩大社科基金在該領域的學術研究取得了突出的成績。首先,2013-2022 年立項總數(shù)實現(xiàn)了量的激增,其中2019 年的立項總數(shù)(20 項)是2012 年立項總數(shù)(2 項)的10 倍。其次,從本領域兩大社科基金項目研究熱點與趨勢來看,目前的基金項目實現(xiàn)了傳統(tǒng)研究領域與信息技術的結(jié)合,例如廣西京族口述歷史資料收集整理與其有聲數(shù)據(jù)庫建設、數(shù)字人文視角下歷史檔案資源知識聚合與知識發(fā)現(xiàn)等等[5]。但從地區(qū)分布可以看出,華東地區(qū)的立項數(shù)量大幅領先于其他地區(qū),其占比為立項總數(shù)的31.65%。華北、西南地區(qū)占比分別為17.72%和16.46%,華南地區(qū)占比最少,僅為5.70%。對此,筆者建議:第一,對不同地區(qū)立項進行政策傾斜支持。東北、西北地區(qū)的經(jīng)濟實力相對薄弱,政府機關可作出一系列優(yōu)惠政策,加大對其基金項目的投資力度,給予一定的研究補貼。第二,鼓勵華南、東北、西北地區(qū)的教學機構(gòu)和實際工作部門積極申報立項。相關部門要密切關注國家基金項目的申報動態(tài),第一時間轉(zhuǎn)發(fā)相關申報通知,召開國家基金項目申報動員會,充分調(diào)動華南等地區(qū)各類研究單位申報國家基金項目的積極性和能動性。