譚美琴, 鄭 川
(1.衡東縣住房和城鄉(xiāng)建設(shè)局,湖南 衡陽(yáng) 421400; 2.中南大學(xué) 檔案技術(shù)研究所,湖南 長(zhǎng)沙 410083)
20世紀(jì)半導(dǎo)體技術(shù)的穩(wěn)定進(jìn)步使計(jì)算機(jī)硬件水平飛速提升,隨之產(chǎn)生的數(shù)據(jù)以指數(shù)級(jí)增長(zhǎng),把社會(huì)帶入信息爆炸時(shí)代。為從信息海洋中去粗取精,把散亂的數(shù)據(jù)轉(zhuǎn)換成有用的知識(shí),數(shù)據(jù)挖掘的概念應(yīng)運(yùn)而生。數(shù)據(jù)挖掘是指從數(shù)據(jù)倉(cāng)庫(kù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的潛在有用信息, 提取的知識(shí)一般可表示為概念、規(guī)則、規(guī)律、模式等形式。數(shù)據(jù)挖掘的常用方法有模糊方法、粗糙集理論、云理論、證據(jù)理論、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、歸納學(xué)習(xí)。數(shù)據(jù)挖掘技術(shù)最早在商業(yè)方面開(kāi)始應(yīng)用,用于輔助制定經(jīng)營(yíng)計(jì)劃和銷售策略,并逐步在醫(yī)療、電信、制造業(yè)和保險(xiǎn)等行業(yè)得到應(yīng)用。近年來(lái),檔案行業(yè)的信息化建設(shè)快速發(fā)展,數(shù)字檔案資源極大豐富,檔案數(shù)據(jù)挖掘成為了學(xué)界和業(yè)界研究的新方向。本文通過(guò)文獻(xiàn)計(jì)量與內(nèi)容分析的方式了解數(shù)據(jù)挖掘技術(shù)在檔案行業(yè)的研究現(xiàn)狀。
以CNKI中國(guó)知網(wǎng)為論文樣本來(lái)源,檢索資源包括中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)、中國(guó)優(yōu)秀碩士論文全文數(shù)據(jù)庫(kù)、中國(guó)優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫(kù)(增刊)和中國(guó)博士論文全文數(shù)據(jù)庫(kù)等。檢索條件為:主題=檔案and數(shù)據(jù)挖掘(精確匹配);發(fā)表時(shí)間=1999~2018年。檢索共得到431篇文獻(xiàn)。
將檢索結(jié)果導(dǎo)入文獻(xiàn)管理軟件Noteexpress 3.2.0進(jìn)行處理,統(tǒng)計(jì)論文數(shù)量、發(fā)文年度、作者分布、研究機(jī)構(gòu)、期刊分布,分析文獻(xiàn)研究?jī)?nèi)容后進(jìn)行分類并歸納各類代表性觀點(diǎn)。
1999~2018年的20年間共有檔案數(shù)據(jù)挖掘論文431篇,其發(fā)文年度分布如圖1所示。從圖1統(tǒng)計(jì)情況可知,2002年以前檔案數(shù)據(jù)挖掘相關(guān)研究很少,2002年起該主題的年文獻(xiàn)量呈現(xiàn)明顯的上升趨勢(shì),到2018年發(fā)文數(shù)量達(dá)到61篇。年文獻(xiàn)數(shù)量反映了近20年來(lái)檔案行業(yè)對(duì)數(shù)據(jù)挖掘的關(guān)注不斷增多,從事這方面研究的人員和機(jī)構(gòu)數(shù)量在增長(zhǎng),研究成果也在增加。檔案數(shù)據(jù)挖掘相關(guān)研究處于逐年發(fā)展的態(tài)勢(shì)。
圖1 1999~2018年檔案數(shù)據(jù)挖掘發(fā)文年度分布圖
在所統(tǒng)計(jì)的文獻(xiàn)中,作者總數(shù)為627人。其中74.48%的論文為個(gè)人獨(dú)立完成,25.52%為合作完成,作者合作情況如表1所示,作者數(shù)最多的為9人合作。
表1 作者合作情況統(tǒng)計(jì)表
對(duì)所有作者按發(fā)文數(shù)量降序排列統(tǒng)計(jì)高產(chǎn)作者,生成詞頻云圖如圖2所示。南京政治學(xué)院的王蘭成共發(fā)文4篇,遼寧省檔案局的張偉和山東萬(wàn)杰醫(yī)學(xué)院的張俊杰分別發(fā)文3篇,詞頻云圖上其余作者各發(fā)文2篇,未顯示在圖2中的作者發(fā)文數(shù)量均為1篇。由此可見(jiàn),檔案數(shù)據(jù)挖掘領(lǐng)域的研究隊(duì)伍雖有一定的規(guī)模,但高產(chǎn)作者偏少,有待形成核心骨干力量。
圖2 高產(chǎn)作者可視化詞頻云圖
統(tǒng)計(jì)作者所屬單位共328個(gè),其中中國(guó)人民大學(xué)信息資源管理學(xué)院、南京政治學(xué)院上海校區(qū)軍事信息管理系、沈陽(yáng)軍區(qū)檔案館和華南農(nóng)業(yè)大學(xué)檔案館4個(gè)單位的作者分別發(fā)文3篇,另有21個(gè)單位的作者發(fā)文數(shù)量為2篇,其余單位作者發(fā)文均為1篇。檔案館和高校檔案學(xué)專業(yè)處于該領(lǐng)域的研究前沿。
431篇文獻(xiàn)發(fā)表所屬的期刊共有178種。選取載文量4篇及以上的期刊進(jìn)行統(tǒng)計(jì)得圖3所示餅狀圖,這17個(gè)期刊基本都是檔案學(xué)方面的期刊,其載文量占總統(tǒng)計(jì)文獻(xiàn)的28.31%,載文量最高的蘭臺(tái)世界共發(fā)布29篇。其余161個(gè)期刊平均載文量1.92篇,總的來(lái)說(shuō),檔案數(shù)據(jù)挖掘文獻(xiàn)的期刊分布比較分散。
本文所統(tǒng)計(jì)的文獻(xiàn),從內(nèi)容上看主要可分為檔案數(shù)據(jù)挖掘相關(guān)理論研究和檔案數(shù)據(jù)挖掘技術(shù)在某方面的具體應(yīng)用研究。
理論研究為主的文獻(xiàn)主要探討檔案數(shù)據(jù)挖掘的發(fā)展方向、方法、算法和保密等跨學(xué)科理論問(wèn)題。黃小忠和史江分析了基于知識(shí)管理的數(shù)字檔案館進(jìn)行數(shù)據(jù)挖掘的對(duì)象是固化資源、智力資源和用戶利用行為信息,在數(shù)據(jù)挖掘方法的選擇上采用適合跨館跨庫(kù)的模式和算法,并注意用戶隱私的保護(hù)。陶水龍分析了檔案數(shù)據(jù)區(qū)別于大數(shù)據(jù)的特點(diǎn),展望檔案數(shù)據(jù)挖掘技術(shù)在檔案管理精細(xì)化和提升檔案應(yīng)用價(jià)值等新方向上的應(yīng)用,指出傳統(tǒng)檔案存儲(chǔ)管理無(wú)法支持海量數(shù)據(jù)挖掘分析,提出基于語(yǔ)義網(wǎng)技術(shù)的海量檔案數(shù)字資源挖掘方法,以提升檔案管理和公眾服務(wù)水平,并剖析了數(shù)據(jù)挖掘?qū)n案管理系統(tǒng)建設(shè)的影響。張偉認(rèn)為檔案信息挖掘過(guò)程包括定義主題、準(zhǔn)備數(shù)據(jù)、瀏覽數(shù)據(jù)、生成模型、瀏覽和驗(yàn)證模型、部署和更新模型六個(gè)基本步驟,重點(diǎn)對(duì)檔案數(shù)據(jù)挖掘的前期規(guī)劃、資源收集與存儲(chǔ)整理、挖掘算法和分析模型、結(jié)果評(píng)價(jià)等關(guān)鍵技術(shù)環(huán)節(jié)進(jìn)行了研究。王蘭成針對(duì)檔案數(shù)據(jù)庫(kù)中的敏感信息保護(hù)問(wèn)題,分析檔案數(shù)據(jù)的特征及保護(hù)需求,引入敏感元組及其密度的概念,用于解除檔案數(shù)據(jù)庫(kù)中敏感數(shù)據(jù)挖掘存在的威脅,詳細(xì)論述其思路和實(shí)現(xiàn)方法的同時(shí)進(jìn)行了實(shí)證案例分析。王蘭成和黃永勤基于國(guó)內(nèi)外檔案社會(huì)化媒體信息現(xiàn)狀分析,借鑒文件管理體系國(guó)際標(biāo)準(zhǔn)和開(kāi)放檔案信息系統(tǒng)參考模型,頂層設(shè)計(jì)檔案社會(huì)化媒體整合系統(tǒng)總體框架,并闡述了其實(shí)施方法和特色。王蘭成和劉曉亮分析了網(wǎng)上數(shù)字檔案的大數(shù)據(jù)特征,以及進(jìn)行數(shù)據(jù)挖掘的需求與挑戰(zhàn),并研究了其中的關(guān)鍵技術(shù)。
應(yīng)用實(shí)踐為主的文獻(xiàn)主要描述數(shù)據(jù)挖掘技術(shù)在檔案行業(yè)某個(gè)方面的具體應(yīng)用和實(shí)踐。鄭向陽(yáng)結(jié)合廣州市城市建設(shè)檔案館的實(shí)踐工作,介紹了城建檔案數(shù)據(jù)挖掘?qū)μ岣邫n案服務(wù)能力的應(yīng)用價(jià)值。陳玉亮和張代華對(duì)江蘇科技大學(xué)的科研項(xiàng)目檔案數(shù)據(jù)通過(guò)聚類分析和關(guān)聯(lián)規(guī)則分析后進(jìn)行課題組科研績(jī)效評(píng)估,為學(xué)校學(xué)科發(fā)展提供決策依據(jù)。黃華坤提出基于Autonomy知識(shí)與服務(wù)的構(gòu)架,闡述該構(gòu)架的數(shù)據(jù)采集平臺(tái)、本體構(gòu)建與分析平臺(tái)和數(shù)據(jù)處理平臺(tái),通過(guò)Autonomy模式識(shí)別提取結(jié)構(gòu)化和非結(jié)構(gòu)化國(guó)土資源檔案數(shù)據(jù)中的語(yǔ)義信息實(shí)現(xiàn)智能搜索與聚類分析等功能,并介紹了廣東省國(guó)土資源檔案館的具體應(yīng)用實(shí)踐。楊茜雅介紹了中國(guó)聯(lián)通的“兩庫(kù)兩平臺(tái)”檔案智能利用方案:在企業(yè)檔案數(shù)據(jù)利用中引入語(yǔ)義本體概念實(shí)現(xiàn)檔案數(shù)據(jù)語(yǔ)義分析的流程,在此基礎(chǔ)上構(gòu)建聯(lián)通電子檔案知識(shí)圖譜系統(tǒng),通過(guò)數(shù)據(jù)挖掘平臺(tái)把中國(guó)聯(lián)通公司的檔案資源庫(kù)建設(shè)成檔案知識(shí)庫(kù)進(jìn)行多維展示,實(shí)現(xiàn)知識(shí)圖譜驅(qū)動(dòng)的電子檔案智能利用。覃艷在區(qū)域衛(wèi)生信息平臺(tái)上構(gòu)建電子健康檔案數(shù)據(jù)倉(cāng)庫(kù),建模后分析對(duì)糖尿病患者進(jìn)行分類的規(guī)則和糖尿病與其他疾病的關(guān)聯(lián)規(guī)則,總結(jié)得到一些影響糖尿病病發(fā)的相關(guān)因素以預(yù)測(cè)潛在高風(fēng)險(xiǎn)人群。
檔案是原始記錄,檔案數(shù)據(jù)也因其特性而成為一種重要而特殊的信息資源,蘊(yùn)藏著巨大的價(jià)值。檔案數(shù)據(jù)挖掘也成為了檔案學(xué)術(shù)界和實(shí)踐部門的思考熱點(diǎn)和研究方向。研究成果總體呈上升趨勢(shì);文獻(xiàn)發(fā)表的期刊分布比較分散;高產(chǎn)作者偏少,未形成核心骨干力量;理論研究主要集中在檔案數(shù)據(jù)挖掘的發(fā)展方向、方法、算法和保密等跨學(xué)科理論問(wèn)題,檔案信息倫理、檔案數(shù)據(jù)處理等方面成果不多;實(shí)踐應(yīng)用方面主要描述數(shù)據(jù)挖掘技術(shù)在檔案行業(yè)某個(gè)方面的具體應(yīng)用和實(shí)踐。