文/鹽城師范學(xué)院 劉露
21世紀(jì),數(shù)據(jù)已經(jīng)滲透到各行各業(yè)并成為重要的生產(chǎn)資料,社會(huì)各界已經(jīng)認(rèn)識(shí)到數(shù)據(jù)的價(jià)值。2012年大數(shù)據(jù)成為各界關(guān)注的熱點(diǎn)話(huà)題,各大網(wǎng)站、媒體、報(bào)紙均對(duì)大數(shù)據(jù)開(kāi)展報(bào)道,眾多行業(yè)相繼提出大數(shù)據(jù)發(fā)展戰(zhàn)略,大數(shù)據(jù)開(kāi)啟了繼云計(jì)算、物聯(lián)網(wǎng)之后的新一輪技術(shù)革命。不同學(xué)科領(lǐng)域包括檔案學(xué)都想要在大數(shù)據(jù)研究熱潮中占有一席之地。檔案學(xué)者們致力于將大數(shù)據(jù)技術(shù)應(yīng)用于學(xué)科信息化建設(shè)之中,自此大數(shù)據(jù)研究在檔案學(xué)領(lǐng)域逐步發(fā)展起來(lái),這也引起學(xué)者們對(duì)檔案大數(shù)據(jù)研究熱的思考和質(zhì)疑。
以“大數(shù)據(jù)”為篇名在中國(guó)學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù)進(jìn)行檢索(檢索時(shí)間2020年5月14日),2011年相關(guān)研究文獻(xiàn)量為192篇、2012年為820篇,到2013年達(dá)到了2615篇,說(shuō)明2013年以后關(guān)于大數(shù)據(jù)研究的文獻(xiàn)數(shù)量急劇增加,多學(xué)科躋身大數(shù)據(jù)研究熱潮。截至2020年5月14日,在中國(guó)學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù)以“大數(shù)據(jù)”和“檔案”為篇名進(jìn)行精確檢索,時(shí)間跨度為2012~2019年,2020年文獻(xiàn)數(shù)量不完整,故不列入分析范圍,共獲得檢索結(jié)果2075條(如圖1所示)。根據(jù)檢索結(jié)果,我國(guó)檔案學(xué)者關(guān)注大數(shù)據(jù)是在2012年以后,最早為施永利的《大數(shù)據(jù)時(shí)代背景下的檔案利用服務(wù)探討》一文,分析了大數(shù)據(jù)時(shí)代對(duì)檔案管理和服務(wù)帶來(lái)的挑戰(zhàn)并提出利用數(shù)據(jù)挖掘技術(shù)來(lái)提高檔案服務(wù)質(zhì)量。從圖1中可以看出2014年以后檔案領(lǐng)域關(guān)于大數(shù)據(jù)研究文獻(xiàn)數(shù)量明顯增加。2016年4月國(guó)家檔案局發(fā)布了《全國(guó)檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》,4次提到大數(shù)據(jù),為檔案界主動(dòng)加入大數(shù)據(jù)研究提供了方向。2016~2019年文獻(xiàn)數(shù)量逐年劇增,可以看出國(guó)內(nèi)檔案學(xué)界關(guān)于大數(shù)據(jù)研究始于2012年,2016年以后呈現(xiàn)爆發(fā)趨勢(shì)并正穩(wěn)步發(fā)展。研究?jī)?nèi)容主要集中在:檔案大數(shù)據(jù)4V特征分析,大數(shù)據(jù)對(duì)檔案利用、信息化等管理工作帶來(lái)的機(jī)遇和挑戰(zhàn),數(shù)字檔案館服務(wù)新模式以及大數(shù)據(jù)技術(shù)在檔案學(xué)研究中的應(yīng)用等方面,學(xué)者普遍認(rèn)同傳統(tǒng)檔案工作需要轉(zhuǎn)變思維方式、工作方式,利用數(shù)據(jù)挖掘、數(shù)據(jù)分析等服務(wù)于檔案工作,跟上大數(shù)據(jù)的潮流。
圖1 2012~2019年中國(guó)檔案領(lǐng)域大數(shù)據(jù)發(fā)文量年度趨勢(shì)
(一)強(qiáng)調(diào)共享,忽視檔案開(kāi)放利用。自國(guó)際掀起大數(shù)據(jù)研究熱潮后,幾乎席卷了各行各業(yè)各領(lǐng)域,似乎不談?wù)摯髷?shù)據(jù)就是不與時(shí)俱進(jìn),不與大數(shù)據(jù)扯上關(guān)系就不是創(chuàng)新。當(dāng)大數(shù)據(jù)概念被引入檔案學(xué)研究時(shí),學(xué)者紛紛提出檔案數(shù)據(jù)符合大數(shù)據(jù)4V特征,要擁抱大數(shù)據(jù)時(shí)代。同時(shí)也有諸如于英香等專(zhuān)家學(xué)者對(duì)大數(shù)據(jù)被過(guò)度神化的現(xiàn)象提出了質(zhì)疑。大數(shù)據(jù)時(shí)代的一個(gè)基本特點(diǎn)是數(shù)據(jù)開(kāi)放與共享,檔案館擁有巨量檔案資源,只有實(shí)現(xiàn)檔案開(kāi)放才能實(shí)現(xiàn)大數(shù)據(jù)技術(shù)在檔案領(lǐng)域的廣泛應(yīng)用。檔案開(kāi)放是發(fā)揮和呈現(xiàn)檔案價(jià)值的直接方式,但目前檔案開(kāi)放存在鑒定責(zé)任主體模糊、開(kāi)放程度低、檔案利用與隱私保護(hù)不平衡、缺少補(bǔ)救保障機(jī)制等問(wèn)題。根據(jù)國(guó)家統(tǒng)計(jì)局統(tǒng)計(jì)年鑒中的統(tǒng)計(jì)數(shù)據(jù),國(guó)家綜合檔案館檔案開(kāi)放率由2008年的24.2%降到2018年的15%,如圖2所示。
圖2 2008~2018年國(guó)家綜合檔案館檔案開(kāi)放率(%)
(二)強(qiáng)調(diào)融合,忽視學(xué)科之間內(nèi)在聯(lián)系。黨的十八大習(xí)近平總書(shū)記提出構(gòu)建人類(lèi)命運(yùn)共同體,為治國(guó)理政提供了新思想,也為跨界合作提供了新視角。學(xué)科之間不是反對(duì)、排斥關(guān)系,而是一種對(duì)話(huà)、合作、互利、共贏(yíng)的關(guān)系,開(kāi)放融合成為各學(xué)科發(fā)展的趨勢(shì)和學(xué)者鼓勵(lì)的方向。追求融合不是兩個(gè)或多個(gè)學(xué)科的簡(jiǎn)單嫁接,需要找到契合點(diǎn),找出學(xué)科融合過(guò)程中可能出現(xiàn)的短路問(wèn)題,將其他學(xué)科中有價(jià)值的、經(jīng)過(guò)驗(yàn)證的理念、技術(shù)通過(guò)契合點(diǎn)與檔案學(xué)科聯(lián)系在一起,實(shí)現(xiàn)無(wú)縫連接的融合,而不是將所有主流觀(guān)點(diǎn)、理念、思想、技術(shù)、手段等都強(qiáng)加到檔案學(xué)中,否則只會(huì)帶來(lái)檔案學(xué)與其他學(xué)科的脫節(jié)。融合發(fā)展可以借助雙方力量,不單是數(shù)量的簡(jiǎn)單疊加,更是質(zhì)量的融合,2018年在黨和國(guó)家深化機(jī)構(gòu)改革的背景下,各級(jí)國(guó)家綜合檔案館推行局館分離,檔案館只擁有保管利用的職能,其行政職能歸屬黨委管理。檔案館要明確自己的核心職能,檔案學(xué)科要明確發(fā)展方向,在自身發(fā)展的基礎(chǔ)上,擁抱大數(shù)據(jù)技術(shù),形成學(xué)科發(fā)展的有效性連接,實(shí)現(xiàn)兩個(gè)學(xué)科在融合中的一體化成長(zhǎng)。
(一)立足學(xué)科根本,追求大發(fā)展。大數(shù)據(jù)技術(shù)已經(jīng)被交通、醫(yī)療、教育、媒體、金融等眾多行業(yè)接受并得到廣泛傳播和應(yīng)用,但大數(shù)據(jù)時(shí)代對(duì)檔案開(kāi)放、鑒定等方面提出了更高的要求,大數(shù)據(jù)技術(shù)及在檔案領(lǐng)域的應(yīng)用還沒(méi)有成熟,因此,檔案部門(mén)不應(yīng)過(guò)多強(qiáng)調(diào)大數(shù)據(jù)技術(shù)和應(yīng)用的追逐,而應(yīng)關(guān)注數(shù)據(jù)時(shí)代的到來(lái)給檔案工作內(nèi)外部帶來(lái)的變化,明確學(xué)科在大數(shù)據(jù)熱潮中的方向。
檔案學(xué)科自成立以來(lái),理論和實(shí)踐方面一直存在難以攻關(guān)的重點(diǎn)和難點(diǎn)問(wèn)題,如檔案開(kāi)放、鑒定該如何把握一直是實(shí)際工作中的難題。檔案開(kāi)放是檔案開(kāi)發(fā)、利用、服務(wù)民眾等各項(xiàng)工作的基礎(chǔ)。檔案館作為國(guó)家、機(jī)關(guān)、社會(huì)組織、企事業(yè)單位社會(huì)實(shí)踐活動(dòng)原始記錄的保管基地,掌握著巨大的數(shù)據(jù)資源,是擁有覆蓋歷史、現(xiàn)在和未來(lái)數(shù)據(jù)資源的寶庫(kù)。大數(shù)據(jù)研究需要以海量數(shù)據(jù)為基礎(chǔ),檔案開(kāi)放是前提更是基礎(chǔ),只有解決學(xué)科發(fā)展中的重難點(diǎn)問(wèn)題、核心問(wèn)題,抓住主要矛盾,由小見(jiàn)大,完善學(xué)科體系,才能有序推進(jìn)研究,推動(dòng)學(xué)科長(zhǎng)遠(yuǎn)發(fā)展。2019年10月,十三屆全國(guó)人大常委會(huì)第十四次會(huì)議初次審議《中華人民共和國(guó)檔案法(修訂草案)》,我國(guó)檔案封閉期擬由30年縮短為25年。加大檔案信息開(kāi)放力度,由內(nèi)而外先解決檔案學(xué)科自身的基礎(chǔ)性問(wèn)題已經(jīng)成為大數(shù)據(jù)應(yīng)用到檔案領(lǐng)域的基礎(chǔ)性工作和條件。一個(gè)學(xué)科的發(fā)展要注重廣度,更要注重深度。求小放大和求大放小相結(jié)合,以檔案學(xué)自身發(fā)展為前提,放眼未來(lái),逐步實(shí)現(xiàn)與其他學(xué)科融合的大發(fā)展趨勢(shì)。
(二)夯實(shí)數(shù)字化,邁向數(shù)據(jù)化。檔案數(shù)據(jù)化被認(rèn)為是檔案數(shù)字化發(fā)展的新階段,它是指檔案部門(mén)以用戶(hù)需求和業(yè)務(wù)需要為導(dǎo)向,將數(shù)字檔案資源轉(zhuǎn)換為可供閱讀、分析和處理的檔案數(shù)據(jù)資源的過(guò)程。檔案數(shù)字化是數(shù)據(jù)化的基礎(chǔ),數(shù)據(jù)化是在對(duì)數(shù)據(jù)信息進(jìn)行識(shí)別和處理的基礎(chǔ)上完善的。目前我國(guó)檔案數(shù)字化工作還停留在對(duì)數(shù)字化檔案資源的組織、檢索層面,通過(guò)互聯(lián)網(wǎng)已經(jīng)實(shí)現(xiàn)主題檢索、關(guān)鍵詞檢索、全文檢索等基礎(chǔ)操作,但對(duì)檔案內(nèi)容信息挖掘并不深入,檔案中所包含的復(fù)雜信息內(nèi)容、信息間隱含的語(yǔ)義關(guān)系等都無(wú)法得到識(shí)別和分析,對(duì)檔案內(nèi)容的組織和檢索服務(wù)不夠智能化、智慧化。通過(guò)數(shù)據(jù)化,對(duì)數(shù)字檔案資源和歸檔電子文件的數(shù)字內(nèi)容進(jìn)行識(shí)別、分類(lèi)、著錄和標(biāo)引,對(duì)其包含的數(shù)據(jù)信息進(jìn)行重新分割和關(guān)聯(lián)分析,從中提取關(guān)鍵數(shù)據(jù)成分,將非結(jié)構(gòu)化的檔案數(shù)據(jù)和文檔數(shù)據(jù)實(shí)現(xiàn)結(jié)構(gòu)化分析,可以實(shí)現(xiàn)檔案資源由可讀模式轉(zhuǎn)變?yōu)榭煞治?、可?jì)算模式。
在完善數(shù)字化工作的基礎(chǔ)上部署實(shí)施檔案數(shù)據(jù)化工作,有助于進(jìn)一步推進(jìn)檔案信息資源在數(shù)據(jù)層級(jí)的深度開(kāi)發(fā),實(shí)現(xiàn)檔案數(shù)據(jù)資源的融合、關(guān)聯(lián)、挖掘與分析,推動(dòng)檔案知識(shí)發(fā)現(xiàn)和知識(shí)服務(wù)的開(kāi)展。檔案部門(mén)保存著大量有價(jià)值的一手檔案資源,作為檔案資源大戶(hù),檔案部門(mén)要善于運(yùn)用數(shù)據(jù)分析、數(shù)據(jù)挖掘技術(shù)分析檔案數(shù)據(jù),對(duì)其進(jìn)行聚類(lèi)、分類(lèi)和相關(guān)性分析,找到數(shù)據(jù)間的關(guān)系,建立數(shù)據(jù)模型,從海量數(shù)據(jù)中揭示出隱含潛在價(jià)值的信息,從檔案本身獲取檔案數(shù)據(jù),為社會(huì)公眾提供智能化、智慧化檔案服務(wù)。
(三)積累小數(shù)據(jù),放眼大數(shù)據(jù)。大數(shù)據(jù)時(shí)代,有人說(shuō)一切文件和記錄都將成為檔案,確實(shí)給檔案學(xué)科發(fā)展帶來(lái)了影響,但并沒(méi)有改變檔案原始記錄性,只是出現(xiàn)了更多新興檔案門(mén)類(lèi)。面對(duì)新事物新概念的出現(xiàn),需要重新思考檔案學(xué)的概念系統(tǒng)和研究范疇,明確哪些數(shù)據(jù)流具有檔案特征,傳統(tǒng)的管理理論是否適用。檔案是一種重要的社會(huì)信息資源,其中蘊(yùn)藏著無(wú)法估量的社會(huì)價(jià)值,已經(jīng)成為大數(shù)據(jù)時(shí)代最重要的信息源之一。檔案數(shù)據(jù)來(lái)源于檔案本身,必須做好檔案基礎(chǔ)性管理工作,積累檔案資源,才能從檔案資源中獲取檔案數(shù)據(jù)信息。大數(shù)據(jù)與統(tǒng)計(jì)學(xué)、數(shù)學(xué)等知識(shí)相關(guān),單一數(shù)據(jù)無(wú)法發(fā)現(xiàn)其中規(guī)律,對(duì)大量數(shù)據(jù)進(jìn)行搜集和分析才能發(fā)現(xiàn)數(shù)據(jù)本身蘊(yùn)含的價(jià)值。
小數(shù)據(jù)就是每份檔案所包含的時(shí)間、人物、事件、作者等內(nèi)容信息和背景信息,這些數(shù)據(jù)信息不僅能展示過(guò)去發(fā)生的事件,也能通過(guò)數(shù)據(jù)之間的重組、關(guān)聯(lián)找到某種規(guī)律,甚至預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。立足于小數(shù)據(jù),可以更好地根據(jù)用戶(hù)需求提供需要的數(shù)據(jù),能根據(jù)用戶(hù)的特征提供個(gè)性化數(shù)據(jù)。不積跬步,無(wú)以至千里,以小數(shù)據(jù)積累用戶(hù),以大數(shù)據(jù)洞察外部環(huán)境,依托先進(jìn)的技術(shù)手段實(shí)現(xiàn)檔案智能化管理,共同助力檔案學(xué)科發(fā)展。
大數(shù)據(jù)研究熱潮持續(xù)升溫,檔案學(xué)應(yīng)在夯實(shí)檔案開(kāi)放利用、數(shù)字化等工作的基礎(chǔ)上,充分運(yùn)用大數(shù)據(jù)技術(shù)挖掘數(shù)據(jù)資源,放眼大數(shù)據(jù),追求既有專(zhuān)業(yè)深度又有跨學(xué)科研究廣度的發(fā)展趨勢(shì),與大數(shù)據(jù)及其他學(xué)科開(kāi)展跨學(xué)科的研究和合作,以期在社會(huì)轉(zhuǎn)型期依然能夠應(yīng)對(duì)各種挑戰(zhàn),實(shí)現(xiàn)檔案學(xué)科的大融合、大發(fā)展和跨越式進(jìn)步。